본문 바로가기
Mathematics/확률과 통계

가설검정(귀무가설, 대립가설, p-값)-확률과통계(22)

by 콩돌 2020. 8. 8.
반응형


 가설검정(귀무가설, 대립가설, p-값)

 

본 포스팅에서는 귀무가설(Null hypothesis)과 대안가설(Alternative hypothesis)에 대한 설명과, 가설검정을 위해 사용하는 p-값(p-value)에 대해 설명한다.

 

 귀무가설(Null hypothesis)과 대안가설(Alternative hypothesis)


가설검정에 대해 다루기에 앞서 귀무가설과 대안가설이 무엇인지 설명하도록한다.

  ○ 귀무가설(Null hypothesis): 모집단 확률변수와 추정치가 차이가 없다는 가설이다.

    ▷ 영가설이라고도 불린다.

    ▷ 수학적 기호로 라고 표현한다.

  ○ 대안가설(Alternative hypothesis): 모집단 확률변수와 추정치가 차이가 있다는 가설이다.

    ▷ 수학적 기호로 라고 표현한다.

 

아래에 열거한 예제는 가설검정을 사용하는 예이다.

  ○ 예) 신약의 효과, 공장에서 생산품의 오차/품질, 남/여학생의 성적차이 등

 

 모집단평균의 가설검정

모집단평균 μ에 대한 가설검정은 아래와 같이 귀무가설대립가설을 세워 비교한다.

 

가설에 대해서는 일반적으로 다음과 같이 표현한다.(μ가 존재하는 경우)

양방향(Two-side)

  


단방향(One-side)

  

  

 

 

 가설검정을 위한 p-value

 

 검정을 수행하기 위한 p-값(관찰된 유의수준)

아래 내용은 p-값을 설명한다.  

  ○ p-값의 정의: p-값은 귀무가설이 참일때 주어진 데이터 집합을 얻을 수 있는 확률이다.

  ○ p-값은 관찰된 데이터가 귀무가설의 신뢰성을 0에서 1 사이의 수치로 표현한 것이다. 

    ▷ p-값이 작을수록 신뢰성이 낮다고본다.

    ▷ 특정 값(대개 0.05나 0.01 등)보다 작을 경우 귀무가설을 기각하는 것이 관례이나 항상 그렇지는 않다.

  ○ 데이터 집합으로부터 계산된 p-값은 귀무가설의 신뢰성을 측정할 때 사용될 수 있다.


 p-값(p-value)의 계산

앞 포스팅(여기)에서 신뢰구간(Confidence interval)의 예측을 t-분포와 표준정규분포를 기반으로 수행하였다.

  ○ 이 방법을 기반으로하여 p-값을 계산할 수 있다.

    ▷ 모집단의 분산을 알지 못하면 t-분포를, 아는 경우라면 표준정규분포를 이용한다. 

  ○ 아래 내용은 모집단의 분산을 모르는 경우(t-분포 사용)에 양방향 및 단방향에서의 p-값의 계산방법을 보여준다.

 

양방향 t 검정(Two side t-test)

양방향 구간에 대해  다음과 같이 귀무가설이 검정될 수 있다.


단방향 t 검정(one side t-test)

단방향 구간에 대해 다음과 같이 

확률변수 X는 위에서 양방향 t-검정에서 계산한 방식과 동일하게 계산된다.



 p-값(p-value)의 해석 

p-값에 따른 귀무가설의 채택(Acceptance)과 기각(Rejection)

귀무가설은 일반적으로 다음과 같은 기준으로 채택되거나 기각된다.

  ○ p-값<0.01: 귀무가설 기각, 대안가설 채택

  ○ p-값>0.1: 귀무가설 채택

    ▷ 그러나 이것은 귀무가설이 참으로 증명됬다는 것을 의미하지 않는다.

  ○ 0.01<p-값<0.1: 애매한 구간, 

    ▷ 데이터 분석이 결론에 이르지 못한 것으로 본다.

    ▷ 여기에는 귀무가설이 신뢰성이 떨어지나 그 것이 압도적으로 신뢰성을 상실시키지 못하는 몇몇 증거가 있다고 본다. 

 

반응형

댓글