Summary
Machine learning의 첫 단계는 data를 불러 오는 것입니다. CSV, SQL DB 등 다양한 source에서 data load 방법을 알아봅니다. pandas library 도구를 사용합니다. Toy data set은 scikit-learn을 사용합니다.
Toy Data Set (2.1)
load_boston: Boston house cose에 대한 503개 data set 입니다. (Regression)
load_iris: Iris sample size에 대한 150개 data set 입니다. (Classification)
load_digits: 손 글씨 숫자 이미지 1,979개 data set 입니다. (Image clustering)
scikit-learn을 사용한 Mock Data Set (2.2)
make_regression: regression을 위한 실수 feature matrix와 target vector return
make_classification: classification을 위한 실수 feature matrix와 정수 target vector return
make_blobs: clustering을 위한 실수 feature matrix와 정수 target vector return
Pandas를 사용한 Data Load
read_csv: csv file (2.3)
read_excel: excel file (2.4)
read_json: json file (2.5)
read_sql_query: SQL database (2.6)