본문 바로가기

AI/Data Analysis, Statistics

(14)

Sprint1_Logistic Regression log odds 개념 다시 보기 Logistic regression 독립변수의 선형 결합을 통해 사건의 발생 가능성을 예측하기 위해 사용되는 통계기법이다. 로지스틱 회귀의 목적은 일반적인 회귀 분석과 같이 종속변수와 독립변수간의 관계를 통해 향후 예측 모델에 사용한다. 하지만 일반적인 선형회귀 분석과는 다르게 종속 변수가 Categorical data를 대상으로 하며, 데이터가 주어졌을 때 결과가 특정 분류로 나뉘기 때문에 일종의 분류(classification)기법으로 볼 수 있다. 기준 모델 회귀 문제에서는 기준 모델을 평균으로 사용하지만, 분류문제에서는 최빈값을 기준 모델로 설정한다. Odds 승산(odds)은 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율을 의미함. p가 1에 가까울 수록..

Sprint3_선형대수(Screeplot, clustering) Scree plots Scree plot은 탐색 적 요인 분석 (FA)에서 유지할 요인의 수 또는 주성분 분석(PCA)에서 유지할 주성분 의 수를 결정하는 데 사용된다. Scree 플롯을 사용하여 통계적으로 유의 한 요인 또는 구성 요소를 찾는 절차를 Scree 테스트 라고도 한다. (Wikipedia) Machine Learning : 데이터 학습 지도학습(Supervised Learning) : 데이터에 라벨이 있을 때 ex) 분류, 회귀 비지도학습(Unsupervised Learning) : 데이터에 라벨이 없을 때 ex) 클러스터링, 차원축소, 연관규칙학습, 강화학습 Clustering 비지도 학습으로 주어진 데이터들을 유사한 데이터끼리 그룹화 하는 것. 유사도는 거리 척도를 이용하여 정의된다. ..

Sprint3_선형대수(dimension reduction) dimension reduction 데이터가 많다고 해서 무조건 좋건 아니다. 변수가 너무 많을 경우 시각화가 어렵고 계산 복잡도가 높아진다. 변수를 줄이기 위한 방법으로는 feature selection(변수 선택), feature extraction(변수 추출)이 있다. 오늘 배운 PCA는 feature extraction에 해당하며, 상관관계를 고려한다는 장점이 있지만, 추출된 변수의 해석이 어렵다는 단점이 있다. PCA (Principal Component Analysis) feature 수가 많은 데이터 셋의 불필요한 feature를 줄이기 위한 방법 중 하나 projection된 데이터의 variance가 최대화되는 projection matrix를 찾는 문제(원데이터의 분산을 최대한 보존하는..

Sprint3_선형대수(Linear combinations, span, and basis vectors) Variance : 데이터가 얼마나 퍼져있는가 측정하는 방법 data.a.var(ddof=1) Standard Deviation : 분산은 스케일이 커지기 때문에 제곱근으로 적당히 줄인 값 data.a.std(ddof=1) Covariance : 변수 1개가 변할 때 다른 변수는 어떤 변화가 생기는지 측정 (a) cov(x, y) > 0 : x가 증가하면 y도 증가 (b) cov(x, y) 0 &..

Sprint3_선형대수(백터, 스칼라) (통계 가고 선형대수 옴...) 선형대수(Linear Algebra) 머신러닝에 있어서 선형대수는 매우 중요하다. 컴퓨터가 이미지 처리, 자연어 처리, 추천 알고리즘 등 머신러닝을 통해 학습을 하기 위해서는 대량의 데이터를 받아들이고 처리할 수 있어야 하는데, 데이터를 처리하는 과정에서 선형대수가 필요하다고 한다. Input data와 output data가 여러개 있고 이 변수들이 서로 선형적인 관계로 얽혀있다고 가정할 때, 이 얽혀있는 부분을 행렬로 표현한다. 즉, 선형대수를 간단히 설명하면 주어진 데이터를 행렬로 표현한 것이다. 스칼라(Scalar) : 변수로저장되어있는단일 숫자. 소문자 기호로 표기함. 벡터(Vector) : 데이터의 행, 열(python에서는 list로 사용된다.) 여러개의 숫자..

Section2_Sprint challenge Sprint Challenge Section2 회고. 이번 주 차 내내 수업 들을 땐 알겠다가도 과제할 땐 정말 많이 헤맸다. 우선 여러 블로그나 자료들을 참조하다보니 통계 단어가 헷갈리는게 많았고, 라이브러리로 통계치를 내다보니까 통계적 의미도 제대로 이해하지 못한 것 같다. 통계는 다시 한 번 블로그에 정리하면서 나만의 용어로 습득하는 시간을 가져야 될 것 같다. 주말에 kaggle dataset으로 통계 공부하려고 했는데 데이터 전처리 하다가 시간이 다 갔다....허허 새로운 데이터에 내가 배운걸 적용하는게 어려운 것 같다. !!해야할 것 블로그에 통계 정리 포스팅 백준 알고리즘 시작

Section_Confidence Interval Confidence Interval (신뢰 구간) : 모수가 실제로 포함될 것이라고 예측되는 범위. 집단 전체를 연구하는 것은 현실적으로 불가능하기 때문에 모집단에서 샘플링 데이터를 기반으로 모수의 범위를 추정한다. 즉 샘플링된 표본이 모집단을 얼마나 잘 대표하는가를 측정한다. 일반적으로 95%의 신뢰수준이 사용된다. *모수(Population parameter) : 모집단 전체를 설명하는 측도 Central Limit Theorem (중심 극한 정리) : 중심 극한 정리는 표본의 크기가 증가함에 따라 평균의 표본 분포가 정규 분포에 근사해진다는 이론. 정규분포는 종 모양의 분포를 보이며, 표본의 크기가 클수록 모수 예측이 정확해진다. (모집단으로부터 추출한 표본의 평균) 이때, 표본의 크기는 최소 30..

Sprint2_Hypothesis test 어제 배웠던 T-test에 보충 설명이다. T-test를 하기 위해서는 몇 가지 조건이 따른다. 1. 독립성 : 두 그룹이 서로 독립적 이어야 한다. - 독립적이라는 의미는 비교하려는 두 집단의 구성이 서로 관계가 없어야 한다는 것을 의미한다. 2. 정규성 : 데이터가 특정 값에 편향되지 않고 적절히 잘 수집 되었는지 확인해야 한다. 3. 등분산성 : 두 그룹의 분산이 어느 정도 유사한지 확인해야 한다. normaltest(data) python에서는 nomaltest()를 통해 등분산성을 파악할 수 있다. 키, 몸무게와 같은 연속형 자료(수량화 할 수 있는 데이터)를 분석할 때에는 T-test와 ANOVA 분석 방법이 사용된다. 반면에, 성별, 혈액형 등 범주형 자료(수량화 할 수 없는 데이터)를 분석..

이전 1 2 다음

티스토리툴바