본문 바로가기

AI/Data Analysis, Statistics

Sprint2_t-test

 

 

벌써 AI Boot Camp 시작한 지 한 주가 지났다. (잘 하고 있는 중인지 걱정이 스믈스믈 )

 

Section2는 통계 과정이다.. 애증의 통계

 

통계는 크게 '두 가지'로 나눌 수 있다.

 

  1. 기술 통계 : 숫자로 표현 (count, mean, min, max 등등), 데이터를 탐색하기 위함.

  2. 추리 통계 : 모르는 것의 예측과 추측 (표본 조사)

 

☞ 기술 통계는 추리 통계의 기초 작업을 위해 수행하는 과정이라고 볼 수 있다. 

 

추리 통계는 모집단의 표본을 뽑아서 모르는 것의 예측과 추측을 하는 것이다.

대통령 선거 여론조사를 할 때 모든 모집단을 대상으로 조사를 하는 것은 불가능에 가깝기 때문에 표본을 뽑아 조사를 한다.

 

Data Sampling (표본 추출)

  • Simple random sampling 

    : 말 그대로 모집단에서 표본을 무작위로 추출하는 것이다. 데이터를 무작위로 뽑기 때문에 편향되지 않는다.
  • Systematic sampling

    : 체계를 가지고 일정한 순서대로 모집단 추출하는 것   ex) 1,000명 중 100명을 뽑되 5단위로 끊어서 추출
  • Stratified random sampling

    : 모집단을 여러 그룹으로 쪼개서 그룹의 규칙을 추출하는 것. ex) OO고등학교 1학년 100명, 2학년 100명, 3학년 100명 추출
  • Cluster sampling

    : 모집단을 여러 그룹으로 나누고 한 그룹을 선택하여 추출.

 

T-Test ? 

  두 집단이 같은지 다른지 알고싶을 때 하는 것으로 평균 값을 비교하여 차이를 보는 분석. 

     => 두 집단의 평균이 우연히 같을 확률과 두 집단의 차이가 우연히 발생할 수 있는 확률을 구하는 것

 

1) One-sample T-test : 주어진 데이터의 평균 값이 특정 값과 비교하는 방법으로 내가 수집한 집단의 평균이 특정 모집단의 평균과 같은지 검증하는 것. 

from scipy import stats

stats.ttest_1samp(A, B)

H0 : a 학교 학생의 평균 키는 180이다.

H1 : a 학교 학생의 평균 키는 180이 아니다.

 

 

2) Two-sample T-test : 두 표본 그룹의 평균을 비교하는 것. ex) a학교와 b학교의 평균 키가 같은가? 두 집단의 평균 값의 차이가 0인지 아닌지.

stats.ttest_ind(A, B)

H0 : a 학교와 b 학교 학생의 평균 키는 차이가 없다.

H1 : a 학교와 b 학교 학생의 평균 키는 차이가 있다.

 

 

*T-test process*

  1. 귀무가설 설정 : 우리가 던진 동전의 평균이 0.5 것이다.
  2. 대안가설 설정 : 0.5 아닐 것이다.
  3. 신뢰도를 설정 : 모수가 신뢰 구간에 포함될 확률 (주로 95%, 99%)
  4. P-value 0~1 가짐. 가설이 얼마나 근거가 있는 지를 0~1 나타내며, T-statics p-value 들어가는지
  5. 결론을 내림

신뢰구간

  • 통계적으로 유의하다고 판단할 수 있는 구간. 모집단의 모수가 신뢰구간에 포함될 확률. 보통 95%의 신뢰구간을 가짐

P-value 

  • 통계적 유의성을 검정하기 위한 수단으로 p-value가 0.05 미만이면 대립가설 채택

 

'AI > Data Analysis, Statistics' 카테고리의 다른 글

Section_Confidence Interval  (0) 2021.01.07
Sprint2_Hypothesis test  (0) 2021.01.06
Sprint1_Sprint challenge  (0) 2021.01.05
Section1_Data Visualize  (0) 2021.01.02
Section1_Data Manipulation  (0) 2020.12.31