벌써 AI Boot Camp 시작한 지 한 주가 지났다. (잘 하고 있는 중인지 걱정이 스믈스믈 )
Section2는 통계 과정이다.. 애증의 통계
통계는 크게 '두 가지'로 나눌 수 있다.
1. 기술 통계 : 숫자로 표현 (count, mean, min, max 등등), 데이터를 탐색하기 위함.
2. 추리 통계 : 모르는 것의 예측과 추측 (표본 조사)
☞ 기술 통계는 추리 통계의 기초 작업을 위해 수행하는 과정이라고 볼 수 있다.
추리 통계는 모집단의 표본을 뽑아서 모르는 것의 예측과 추측을 하는 것이다.
대통령 선거 여론조사를 할 때 모든 모집단을 대상으로 조사를 하는 것은 불가능에 가깝기 때문에 표본을 뽑아 조사를 한다.
Data Sampling (표본 추출)
-
Simple random sampling
: 말 그대로 모집단에서 표본을 무작위로 추출하는 것이다. 데이터를 무작위로 뽑기 때문에 편향되지 않는다. -
Systematic sampling
: 체계를 가지고 일정한 순서대로 모집단 추출하는 것 ex) 1,000명 중 100명을 뽑되 5단위로 끊어서 추출 -
Stratified random sampling
: 모집단을 여러 그룹으로 쪼개서 그룹의 규칙을 추출하는 것. ex) OO고등학교 1학년 100명, 2학년 100명, 3학년 100명 추출 -
Cluster sampling
: 모집단을 여러 그룹으로 나누고 한 그룹을 선택하여 추출.
T-Test ?
두 집단이 같은지 다른지 알고싶을 때 하는 것으로 평균 값을 비교하여 차이를 보는 분석.
=> 두 집단의 평균이 우연히 같을 확률과 두 집단의 차이가 우연히 발생할 수 있는 확률을 구하는 것
1) One-sample T-test : 주어진 데이터의 평균 값이 특정 값과 비교하는 방법으로 내가 수집한 집단의 평균이 특정 모집단의 평균과 같은지 검증하는 것.
from scipy import stats
stats.ttest_1samp(A, B)
H0 : a 학교 학생의 평균 키는 180이다.
H1 : a 학교 학생의 평균 키는 180이 아니다.
2) Two-sample T-test : 두 표본 그룹의 평균을 비교하는 것. ex) a학교와 b학교의 평균 키가 같은가? 두 집단의 평균 값의 차이가 0인지 아닌지.
stats.ttest_ind(A, B)
H0 : a 학교와 b 학교 학생의 평균 키는 차이가 없다.
H1 : a 학교와 b 학교 학생의 평균 키는 차이가 있다.
*T-test process*
- 귀무가설 설정 : 우리가 던진 동전의 평균이 0.5일 것이다.
- 대안가설 설정 : 0.5가 아닐 것이다.
- 신뢰도를 설정 : 모수가 신뢰 구간에 포함될 확률 (주로 95%, 99%)
- P-value는 0~1을 가짐. 가설이 얼마나 근거가 있는 지를 0~1로 나타내며, T-statics가 p-value에 들어가는지
- 결론을 내림
신뢰구간
- 통계적으로 유의하다고 판단할 수 있는 구간. 모집단의 모수가 신뢰구간에 포함될 확률. 보통 95%의 신뢰구간을 가짐
P-value
- 통계적 유의성을 검정하기 위한 수단으로 p-value가 0.05 미만이면 대립가설 채택
'AI > Data Analysis, Statistics' 카테고리의 다른 글
Section_Confidence Interval (0) | 2021.01.07 |
---|---|
Sprint2_Hypothesis test (0) | 2021.01.06 |
Sprint1_Sprint challenge (0) | 2021.01.05 |
Section1_Data Visualize (0) | 2021.01.02 |
Section1_Data Manipulation (0) | 2020.12.31 |