dimension reduction
데이터가 많다고 해서 무조건 좋건 아니다. 변수가 너무 많을 경우 시각화가 어렵고 계산 복잡도가 높아진다.
변수를 줄이기 위한 방법으로는 feature selection(변수 선택), feature extraction(변수 추출)이 있다. 오늘 배운 PCA는 feature extraction에 해당하며, 상관관계를 고려한다는 장점이 있지만, 추출된 변수의 해석이 어렵다는 단점이 있다.
PCA (Principal Component Analysis)
- feature 수가 많은 데이터 셋의 불필요한 feature를 줄이기 위한 방법 중 하나
- projection된 데이터의 variance가 최대화되는 projection matrix를 찾는 문제(원데이터의 분산을 최대한 보존하는 새로운 축을 찾고 그 축에 데이터를 projection)
- n개의 관측치와 p개의 변수로 구성된 데이터를 상관관계가 없는 k개의 변수로 구성된 데이터로 요약
'AI > Data Analysis, Statistics' 카테고리의 다른 글
Sprint1_Logistic Regression (0) | 2021.02.07 |
---|---|
Sprint3_선형대수(Screeplot, clustering) (0) | 2021.01.19 |
Sprint3_선형대수(Linear combinations, span, and basis vectors) (2) | 2021.01.14 |
Sprint3_선형대수(백터, 스칼라) (2) | 2021.01.12 |
Section2_Sprint challenge (0) | 2021.01.12 |