본문 바로가기
Mathematics/확률과 통계

이산데이터 분석(분할표)-확률과통계(26)

by 콩돌 2020. 8. 14.
반응형

 

 

 이산데이터 분석(Discrete Data Analysis)

 

본 포스팅에서는 단방향(One-Way) 및 양방향(Two-Way) 분할표(Contingency Table)에 대한 적합도 검정에 대해 다루도록한다. 

이전 포스팅에서는 모집단에서 두 개의 카테고리로만 나누어 비교를 하였다. 

이 포스팅에서는 다수의 이상의 카테고리로 나누어 비교를 수행하는 방법에 대해 다룰 것이다.

두개의 카테고리일 때는 이항분포(binomial distribution)로 모델링을 수행하였으나 세개 이상의 카테고리로 나눌때는 다항분포(multinomial distribution)로 모델링 하는 것이 적합하다. 

 

 단방향 분할표에 대한 적합도 검정(Goodness of Fit Tests for One-Way Contingency Tables)

 

 단방향 분류(One-Way Classifications)

n개로 구성된 관측치는 특징에 따라 여러 카테고리로 분류된다.

  ○ 즉, 추출된 표본은 하나의 카테고리 k 혹은 하나의 셀로 분류된다.

  ○ 셀내 표본 개수: 

    ▷ 각 셀의 표본 개수의 총합은 n이다.

  ○ 각 셀의 확률: 

    ▷ 각 셀의 확률의 총합은 1이다.

위의 상황을 이해하기 편하게 그림으로 표현하면 다음과 같다.

 

 단방향 분할표에 대한 적합도 검정

각 카테고리의 실제 확률값 을 아는 경우 표본비율 과 비교하여 표본의 신뢰성을 측정할 수 있다.

  ○ 이 경우 다음과 귀무가설 검정은 다음과 같이 표현할 수 있다.

  ○ 실제 확률값 

를 아는 경우 각 셀내의 표본의 예측치를 다음과 같이 계산할 수 있다.

  ○ 당연한 얘기지만 의 합은 1이며, 의 합은 n이다.

 

위의 상황을 이해하기 쉽게 표현한 것이 아래의 그림이다.


위에서는 에 대한 설명을 하였다.

적합도 검정을 수행하기 위해 수행하는 귀무가설 검정에 대해 마저 설명한다.

적합도 검정을 수행하는대에는 아래와 같은 귀무가설과 표본의 총 개수, 관측치, 예상치가 사양된다.

n: 관측치의 총 개수

셀내 표본 개수 관측치: 

셀내 표본 개수 예상치 : 

 

여기서 검정 통계자료로는 k-1 자유도를 가지는 카이제곱분포인가 활용된다.

  ○ 카이제곱분포를 따른다는 내용에 대해서는 이 섹션 마지막에 설명해놓았으므로 참고할 수 있다.

  ○ 검정을 수행하기 위한 피어슨 카이제곱 검정값(Pearson chi-square statistics)은 다음과 같이 계산된다.

  ○ 검정을 수행하기 위한 우도율 카이제곱 검정값(Likelihood ratio chi-square statistic)은 다음과 같이 계산된다.

 

위에서 계산한 피어슨 카이제곱 검정값과 우도율 카이제곱 검정값을 이용하여 p-값(p-value)을 계산하여 검정을 수행할 수 있다.

  ○ 검정을 수행하기 위한 p-값은 셀내 표본 개수 예상치 가 5보다 작을 경우에 다음과 같이 근사될 수 있다.

 

귀무가설의 채택과 기각

귀무가설의 채택과 기각은 다음과 같이 결정될 수 있다.

  ○ 크기 α에서 귀무가설은 다음과 같은 조건에서 채택될 수 있다.

  ○ 다음과 같은 조건에서는 귀무가설은 기각된다.

  ○ 위의 상황을 그림으로 그리면 아래와 같다.

 

※ Pearson Chi-square 검정 통계

를 {1, 2, ..., k}의 값을 가지는 i.i.d(독립적이며 동일하게 분포한) 확률변수라 둔다. 

여기서 귀무가설은 다음과 같이 표현할 수 있다.

는 i와 같은 의 수로 둔다. 그렇다면 는 i.i.d. 가된다.

따라서 귀무가설이 참일 경우 가 된다.

 

여기서 크기 n이 상당히 크다면 T의 분포는 매우 k-1 자유도를 가지는 카이제곱분포 에 가까워진다.

예를들어 k=2 이면, 다음과 같다.

 

 

 양방향 분할표에서 독립성에 대한 검정(Testing for Independence in Two-Way Contingency Tables)

 

 양방향 분류(Two-Way Classification)

양방향 분류는 2차원적으로 분류를 한 것을 나타낸다. 

  ○ 따라서 테이블 형태로 표현이 가능하다.

  ○ 각 셀의 표본 개수는 다음과 같이 표현가능하다.

  ○ 각 i방향 j방향의 마지널(marginal) 개수는 다음과 같다.

  ○ 총 표본의 개수 n은 다음과 같다.

  ○ 아래 그림은 양방향(r x c) 분할표(Two-Way contingency table)을 보여준다.

 

 

 양방향 분할표에서의 독립성에 대한 검정

양방향 분할표에서의 독립성에 대한 검정을 수행하기 위해 귀무가설을 세워야한다. 

  ○ 여기서 귀무가설은 양방향에 있는 각 카테고리들이 독립적이라고 설정한다.

  ○ 이는 다음과 같이 표현할 수 있다.

 

단방향 분할표에 대한 검정 통계와 유사하게 ν 자유도를 가지는 카이제분포인 

가 활용된다.

  ○ 검정을 수행하기 위한 검정값들은 다음과 같이 계산된다.

 

여기서 각 셀내 표본 개수 예상치는 다음과 같다.

 

p-값은 다음과 같이 계산된다.

 

위의 식에서 ν는 자유도이며 다음과 같이 계산된다.

 

귀무가설의 채택과 기각

귀무가설의 채택과 기각은 다음과 같이 결정될 수 있다.

  ○ 크기 α에서 귀무가설은 다음과 같은 조건에서 채택될 수 있다.

  ○ 다음과 같은 조건에서는 귀무가설은 기각된다.

 

 

반응형

댓글