| 이산데이터 분석(Discrete Data Analysis) |
본 포스팅에서는 단방향(One-Way) 및 양방향(Two-Way) 분할표(Contingency Table)에 대한 적합도 검정에 대해 다루도록한다.
이전 포스팅에서는 모집단에서 두 개의 카테고리로만 나누어 비교를 하였다.
이 포스팅에서는 다수의 이상의 카테고리로 나누어 비교를 수행하는 방법에 대해 다룰 것이다.
두개의 카테고리일 때는 이항분포(binomial distribution)로 모델링을 수행하였으나 세개 이상의 카테고리로 나눌때는 다항분포(multinomial distribution)로 모델링 하는 것이 적합하다.
| 단방향 분할표에 대한 적합도 검정(Goodness of Fit Tests for One-Way Contingency Tables) |
| 단방향 분류(One-Way Classifications) |
n개로 구성된 관측치는 특징에 따라 여러 카테고리로 분류된다.
○ 즉, 추출된 표본은 하나의 카테고리 k 혹은 하나의 셀로 분류된다.
○ 셀내 표본 개수:
▷ 각 셀의 표본 개수의 총합은 n이다.
○ 각 셀의 확률:
▷ 각 셀의 확률의 총합은 1이다.
위의 상황을 이해하기 편하게 그림으로 표현하면 다음과 같다.
| 단방향 분할표에 대한 적합도 검정 |
각 카테고리의 실제 확률값 을 아는 경우 표본비율
과 비교하여 표본의 신뢰성을 측정할 수 있다.
○ 이 경우 다음과 귀무가설 검정은 다음과 같이 표현할 수 있다.
○ 실제 확률값
를 아는 경우 각 셀내의 표본의 예측치를 다음과 같이 계산할 수 있다.
○ 당연한 얘기지만 의 합은 1이며,
의 합은 n이다.
위의 상황을 이해하기 쉽게 표현한 것이 아래의 그림이다.
위에서는 과
에 대한 설명을 하였다.
적합도 검정을 수행하기 위해 수행하는 귀무가설 검정에 대해 마저 설명한다.
적합도 검정을 수행하는대에는 아래와 같은 귀무가설과 표본의 총 개수, 관측치, 예상치가 사양된다.
n: 관측치의 총 개수
셀내 표본 개수 관측치:
셀내 표본 개수 예상치 :
여기서 검정 통계자료로는 k-1 자유도를 가지는 카이제곱분포인가 활용된다.
○ 카이제곱분포를 따른다는 내용에 대해서는 이 섹션 마지막에 설명해놓았으므로 참고할 수 있다.
○ 검정을 수행하기 위한 피어슨 카이제곱 검정값(Pearson chi-square statistics)은 다음과 같이 계산된다.
○ 검정을 수행하기 위한 우도율 카이제곱 검정값(Likelihood ratio chi-square statistic)은 다음과 같이 계산된다.
위에서 계산한 피어슨 카이제곱 검정값과 우도율 카이제곱 검정값을 이용하여 p-값(p-value)을 계산하여 검정을 수행할 수 있다.
○ 검정을 수행하기 위한 p-값은 셀내 표본 개수 예상치 가 5보다 작을 경우에 다음과 같이 근사될 수 있다.
귀무가설의 채택과 기각
귀무가설의 채택과 기각은 다음과 같이 결정될 수 있다.
○ 크기 α에서 귀무가설은 다음과 같은 조건에서 채택될 수 있다.
○ 다음과 같은 조건에서는 귀무가설은 기각된다.
○ 위의 상황을 그림으로 그리면 아래와 같다.
※ Pearson Chi-square 검정 통계
를 {1, 2, ..., k}의 값을 가지는 i.i.d(독립적이며 동일하게 분포한) 확률변수라 둔다.
여기서 귀무가설은 다음과 같이 표현할 수 있다.
는 i와 같은
의 수로 둔다. 그렇다면
는 i.i.d. 가된다.
![]()
따라서 귀무가설이 참일 경우
가 된다.
![]()
여기서 크기 n이 상당히 크다면 T의 분포는 매우 k-1 자유도를 가지는 카이제곱분포
에 가까워진다.
예를들어 k=2 이면, 다음과 같다.
| 양방향 분할표에서 독립성에 대한 검정(Testing for Independence in Two-Way Contingency Tables) |
| 양방향 분류(Two-Way Classification) |
양방향 분류는 2차원적으로 분류를 한 것을 나타낸다.
○ 따라서 테이블 형태로 표현이 가능하다.
○ 각 셀의 표본 개수는 다음과 같이 표현가능하다.
○ 각 i방향 j방향의 마지널(marginal) 개수는 다음과 같다.
○ 총 표본의 개수 n은 다음과 같다.
○ 아래 그림은 양방향(r x c) 분할표(Two-Way contingency table)을 보여준다.
| 양방향 분할표에서의 독립성에 대한 검정 |
양방향 분할표에서의 독립성에 대한 검정을 수행하기 위해 귀무가설을 세워야한다.
○ 여기서 귀무가설은 양방향에 있는 각 카테고리들이 독립적이라고 설정한다.
○ 이는 다음과 같이 표현할 수 있다.
단방향 분할표에 대한 검정 통계와 유사하게 ν 자유도를 가지는 카이제분포인
가 활용된다.
○ 검정을 수행하기 위한 검정값들은 다음과 같이 계산된다.
여기서 각 셀내 표본 개수 예상치는 다음과 같다.
p-값은 다음과 같이 계산된다.
위의 식에서 ν는 자유도이며 다음과 같이 계산된다.
귀무가설의 채택과 기각
귀무가설의 채택과 기각은 다음과 같이 결정될 수 있다.
○ 크기 α에서 귀무가설은 다음과 같은 조건에서 채택될 수 있다.
○ 다음과 같은 조건에서는 귀무가설은 기각된다.
'Mathematics > 확률과 통계' 카테고리의 다른 글
| 단순선형회귀모델과 피팅-확률과통계(28) (2) | 2020.08.19 |
|---|---|
| One-Way ANOVA(분산분석, Analysis Of Variance)-확률과통계(27) (0) | 2020.08.17 |
| 이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25) (0) | 2020.08.13 |
| 두개의 표본 비교-확률과통계(24) (0) | 2020.08.11 |
| 가설검정(유의수준, t-검정, z-검정)-확률과통계(23) (0) | 2020.08.09 |
댓글