이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25)

이산데이터 분석(Discrete Data Analysis)

본 포스팅에서는 모비율(Population Proportion)을 기반한 추론과 두 모비율을 비교하는 법에 대해 다루도록 한다.

모비율(Population Proportion)을 기반한 추론

본 섹션에서는 모비율을 기반으로 한 신뢰구간을 추론하는 것에 대해 다룬다.

모비율 기반 추론을 설명하는것에 앞서 모비율을 먼저 설명한다.

○ 모비율이란 모집단이 어떤 특성을 가지는 비율을 의미한다.

▷ 특성을 가진 표본과 가지지 못한 표본으로 나눌 수 있는데 이는 이항분포로 모사할 수 있다.

▷ 모집단에서 표본을 추출했을때 특성을 가질 확률을 p로, 가지지 못할 확률을 1-p로 둘 수 있고 여기서 p가 모비율이다.

▷ 해당 과정을 그림으로 표현하면 다음과 같다.

모비율에 대한 설명을 했으므로 모비율 기반 추론은 다음과 같이 설명하도록한다.

먼저 위에서 설명했다싶이 모집단에서 추출한 표본에서 특성을 유무를 따지는 경우 이항분포로 표현할 수 있다.

○ 여기서 특성을 가질 확률(표본비율)이 p인 경우 다음과 같이 표현할 수 있다.

여기서 n이 충분히 크다면 위의 이항분포는 중심극한정리(링크)에 따라 다음과 같이 정규분포로 근사화할 수 있다.

정규분포는 다음과 같이 표준정규분포로 변경할 수 있다.

그리고 표준정규분포를 따른다면 다음과 같이 신뢰구간을 설정할 수 있다.

추출한 표본을 이용하여 양방향 신뢰구간을 계산하면 다음과 같다.

p 대신 를 사용하는 경우 표준오차는 다음과 같이 계산될 수 있다.

이 근사치는 x와 n-x가 5보다 클 경우에 합리적인 결과를 도출한다.

만약 상계(upper bound)가 1보다 클 경우에는 상계를 1을 사용한다.

○ 하계(lower bound) 역시 유사하게 도출된다.

단방향 신뢰구간은 다음과 같이 도출된다.

즉 p의 범위는 다음과 같다.

이는 다음과 같다.

양방향과 마찬가지로 이 근사치는 x와 n-x가 5보다 클 경우에 합리적인 결과를 도출한다.

모비율의 가설검정

위에서 신뢰구간을 도출하는 법을 다루었다면 여기서는 귀무가설검정에 대해 다루도록한다.

먼저 유의수준 α에 대해 양방향 가설검정은 다음과 같이 표현할 수 있다.

p-값은 이 데이터가 귀무가설이 참일때 해당 데이터가 옳은지 여부를 판단할 수 있게 해준다.

인 경우

만약 가 5보다 크다면, 표준정규분포로 근사화가 가능하다.

연속성 수정(continuity correction)

정규분포 근사를 개선하기 위해 다음과 같은 보정을 수행할 수 있다.

○ 인 경우: 다음과 같이 위 식의 분자에 값이 사용된다.

규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.

모비율에서의 단방향 귀무가설 검증

만약 라면 p값은 다음과 같이 계산될 수 있다.

규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.

만약 라면 p값은 다음과 같이 계산될 수 있다.

규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.

표본 크기 계산

표본크기 n에 대한 정밀도의 정도를 평가하기 위해 사용가능한 방법은 양방향 신뢰구간의 길이 L를 고려하는 것이다.

만약 신뢰구간 1-α가 사용된다면, 신뢰구간의 길이는 다음과 같다.

표본크기 n은 다음과 같이 계산될 수 있다.

n이 가장 큰 경우는 다음과 같다.

만약 가 0.5에서 충분히 많이 떨어져있는 경우라면, 이며 다음과 같이 표본크기가 계산될 수 있다.

두 모비율의 비교

두 모비율이 존재하고 서로 독립적이라면 비교가 가능하다.

두 모비율을 비교하는 법을 설명하기 위해 다음과 같이 독립적인 X와 Y가 있다고 가정하자.

이 경우 샘플에 대한 모비율 확률은 다음과 같다.

신뢰구간에 대한 통계 z값은 다음과 같이 계산할 수 있다.

100(1-α)% 양방향 신뢰구간에 대한 근사치는 다음과 같다.

100(1-α)% 단방향 신뢰구간에 대한 근사치는 다음과 같다.

유의수준 α을 사용하는 양방향 가설검정은 다음과 같이 정리될 수 있다.

p를 모를 경우 p의 통합추정치를 사용할 수 있다.

규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.

단방향 가설검정에 대해서는 다음과 같이 된다.

규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.

저작자표시 비영리 변경금지

'Mathematics > 확률과 통계' 카테고리의 다른 글

One-Way ANOVA(분산분석, Analysis Of Variance)-확률과통계(27) (0)	2020.08.17
이산데이터 분석(분할표)-확률과통계(26) (0)	2020.08.14
두개의 표본 비교-확률과통계(24) (0)	2020.08.11
가설검정(유의수준, t-검정, z-검정)-확률과통계(23) (0)	2020.08.09
가설검정(귀무가설, 대립가설, p-값)-확률과통계(22) (0)	2020.08.08

EG공간

이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25)

'Mathematics > 확률과 통계' 카테고리의 다른 글

댓글

티스토리툴바

이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25)

'Mathematics > 확률과 통계' 카테고리의 다른 글

관련글

댓글

티스토리툴바