Cancel

ch10. Dimension Reduction Using Feature Selection

By Jonghyuk Kim

Posted 2022-06-02 Updated 2022-06-04 2 min read

Summary

Feature selection은 고품질의 정보가 많은 feature를 선택하고 덜 유용한 feature는 버리는 방식입니다.

Filter: 통계적 속성을 조사하여 가장 뛰어난 feature를 선택합니다.
Wrapper: 시행착오를 통해 가장 고품질의 예측을 만드는 feature의 부분조합을 찾습니다.
Embedded: Learning algorithm의 훈련 단계를 확장하거나 그 일부로 구성하여 가장 좋은 feature의 부분조합을 선택합니다.
Variance 기준으로 numeric feature 선택하기 (10.1)

# sklearn의 feature_selection.VarianceThreshold 사용: Numeric feature 중 variance가 낮은 feature(즉, 정보가 거의 없는 feature)를 삭제합니다.

Variance 기준으로 binary feature 선택하기 (10.2)

# sklearn의 feature_selection.VarianceThreshold 사용: Binary categoric feature 중 variance가 낮은 feature (즉, 정보가 거의 없는 feature)를 삭제합니다. 베르누이 확률 변수의 variance가 threshold 이상인 feature를 선택합니다.

Correlation이 큰 feature 다루기 (10.3)

# Correlation matrix 사용하여 correlation이 큰 feature를 확인하고 삭제: 두 가지 feature의 correlation이 크다면 서로 담고 있는 정보가 매우 비슷하므로 중복된 feature를 포함하는 것과 같습니다.

Classification에 관련 없는 feature 삭제하기 (10.4)

  
# Chi-square statistics 사용: Categoric target vector에서 관련 없는 feature를 삭제합니다.

# Chi-square statistics는 두 categoric vector의 독립성을 평가합니다.

# Feature가 numeric인 경우 각 feature와 target vector 사이에서 ANOVA의 F-값을 사용합니다.

Practice

Study, B-ML_with_Python_Cookbook

ml python study sklearn dataframe

This post is licensed under CC BY 4.0 by the author.

Recently Updated

Trending Tags

certificate bioinformatics BI python LAIDD NGS statistics KOBIC biology study

Contents

Trending Tags

certificate bioinformatics BI python LAIDD NGS statistics KOBIC biology study