본문 바로가기

AI/Data Analysis, Statistics

Sprint3_선형대수(Screeplot, clustering)

 

 

Scree plots

Scree plot은 탐색 적 요인 분석 (FA)에서 유지할 요인의 수 또는 주성분 분석(PCA)에서 유지할 주성분 의 수를 결정하는 데 사용된다. Scree 플롯을 사용하여 통계적으로 유의 한 요인 또는 구성 요소를 찾는 절차를 Scree 테스트 라고도 한다. (Wikipedia)

 

 

 

Machine Learning : 데이터 학습

 

지도학습(Supervised Learning) : 데이터에 라벨이 있을 때 ex) 분류, 회귀

비지도학습(Unsupervised Learning) : 데이터에 라벨이 없을 때 ex) 클러스터링, 차원축소, 연관규칙학습, 강화학습

 

 

Clustering

비지도 학습으로 주어진 데이터들을 유사한 데이터끼리 그룹화 하는 것.

유사도는 거리 척도를 이용하여 정의된다. ex) Euclidean, Cosine, Jaccard, Edit distance...

 

 K-Means Clustering

  • K개의 랜덤한 데이터를 중심점으로 근접한 데이터를 클러스터링하는 것
  • 모든 데이터가 중심점들이 할당되면 k개의 클러스터들의 중심점 위치를 갱신한다.
  • 모든 데이터를 가장 가까운 중심점을 갖는 클러스터로 재할당한다. 클러스터 내 데이터가 바뀔 수 있는데 변화가 없을 때 까지 반복한다.

Elbow methods

k-means에서 최적의 k를 결정하는 방법