Sprint2_t-test

벌써 AI Boot Camp 시작한 지 한 주가 지났다. (잘 하고 있는 중인지 걱정이 스믈스믈 )

Section2는 통계 과정이다.. ~~애증의 통계~~

통계는 크게 '두 가지'로 나눌 수 있다.

1. 기술 통계 : 숫자로 표현 (count, mean, min, max 등등), 데이터를 탐색하기 위함.

2. 추리 통계 : 모르는 것의 예측과 추측 (표본 조사)

☞ 기술 통계는 추리 통계의 기초 작업을 위해 수행하는 과정이라고 볼 수 있다.

추리 통계는 모집단의 표본을 뽑아서 모르는 것의 예측과 추측을 하는 것이다.

대통령 선거 여론조사를 할 때 모든 모집단을 대상으로 조사를 하는 것은 불가능에 가깝기 때문에 표본을 뽑아 조사를 한다.

Simple random sampling
: 말 그대로 모집단에서 표본을 무작위로 추출하는 것이다. 데이터를 무작위로 뽑기 때문에 편향되지 않는다.
Systematic sampling
: 체계를 가지고 일정한 순서대로 모집단 추출하는 것 ex) 1,000명 중 100명을 뽑되 5단위로 끊어서 추출
Stratified random sampling
: 모집단을 여러 그룹으로 쪼개서 그룹의 규칙을 추출하는 것. ex) OO고등학교 1학년 100명, 2학년 100명, 3학년 100명 추출
Cluster sampling
: 모집단을 여러 그룹으로 나누고 한 그룹을 선택하여 추출.

두 집단이 같은지 다른지 알고싶을 때 하는 것으로 평균 값을 비교하여 차이를 보는 분석.

=> 두 집단의 평균이 우연히 같을 확률과 두 집단의 차이가 우연히 발생할 수 있는 확률을 구하는 것

1) One-sample T-test : 주어진 데이터의 평균 값이 특정 값과 비교하는 방법으로 내가 수집한 집단의 평균이 특정 모집단의 평균과 같은지 검증하는 것.

from scipy import stats

stats.ttest_1samp(A, B)

H0 : a 학교 학생의 평균 키는 180이다.

H1 : a 학교 학생의 평균 키는 180이 아니다.

2) Two-sample T-test : 두 표본 그룹의 평균을 비교하는 것. ex) a학교와 b학교의 평균 키가 같은가? 두 집단의 평균 값의 차이가 0인지 아닌지.

stats.ttest_ind(A, B)

H0 : a 학교와 b 학교 학생의 평균 키는 차이가 없다.

H1 : a 학교와 b 학교 학생의 평균 키는 차이가 있다.

*T-test process*

신뢰구간

P-value

Section_Confidence Interval (0)	2021.01.07
Sprint2_Hypothesis test (0)	2021.01.06
Sprint1_Sprint challenge (0)	2021.01.05
Section1_Data Visualize (0)	2021.01.02
Section1_Data Manipulation (0)	2020.12.31

groot