ch2. Data Load

By Jonghyuk Kim

Posted 2022-05-25 Updated 2022-06-04 1 min read

Summary

Machine learning의 첫 단계는 data를 불러 오는 것입니다. CSV, SQL DB 등 다양한 source에서 data load 방법을 알아봅니다. pandas library 도구를 사용합니다. Toy data set은 scikit-learn을 사용합니다.

Toy Data Set (2.1)
- load_boston: Boston house cose에 대한 503개 data set 입니다. (Regression)
- load_iris: Iris sample size에 대한 150개 data set 입니다. (Classification)
- load_digits: 손 글씨 숫자 이미지 1,979개 data set 입니다. (Image clustering)
scikit-learn을 사용한 Mock Data Set (2.2)
- make_regression: regression을 위한 실수 feature matrix와 target vector return
- make_classification: classification을 위한 실수 feature matrix와 정수 target vector return
- make_blobs: clustering을 위한 실수 feature matrix와 정수 target vector return
Pandas를 사용한 Data Load
- read_csv: csv file (2.3)
- read_excel: excel file (2.4)
- read_json: json file (2.5)
- read_sql_query: SQL database (2.6)

ch2. Data Load

Summary

Practice

Further Reading

ch12. Model Selection

ch13. Linear Regression

ch14. Tree and Random Forest