본문 바로가기

AI/Data Analysis, Statistics

Sprint1_Logistic Regression

log odds 개념 다시 보기

 

Logistic regression

독립변수의 선형 결합을 통해 사건의 발생 가능성을 예측하기 위해 사용되는 통계기법이다. 로지스틱 회귀의 목적은 일반적인 회귀 분석과 같이 종속변수와 독립변수간의 관계를 통해 향후 예측 모델에 사용한다. 하지만 일반적인 선형회귀 분석과는 다르게 종속 변수가 Categorical data를 대상으로 하며, 데이터가 주어졌을 때 결과가 특정 분류로 나뉘기 때문에 일종의 분류(classification)기법으로 볼 수 있다. 

 

기준 모델

  • 회귀 문제에서는 기준 모델을 평균으로 사용하지만, 분류문제에서는 최빈값을 기준 모델로 설정한다.

Odds 

승산(odds)은 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율을 의미함. p가 1에 가까울 수록 오즈는 무한대의 양의 값을 가지며, p가 0이라면  0의 값을 가진다. 따라서 odds가 커질수록 사건 A가 발생할 확률이 커진다고 생각할 수 있다.

 

odds = p / (1-p) 로 범주 1에 속할 확률 / 범주 0에 속할 확률

 

0 <= odds <= 양의 무한대

 

Logit(로그 오즈)

odds에 로그를 취함으로써 위의 한계를 극복한다.

logit = log(p / 1-p)

 

로그를 취함으로써 logit의 범위는 아래와 같이 형성된다.

-inf < log(odds) < inf