본문 바로가기
Mathematics/확률과 통계

이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25)

by 콩돌 2020. 8. 13.
반응형


 이산데이터 분석(Discrete Data Analysis)


본 포스팅에서는 모비율(Population Proportion)을 기반한 추론과 두 모비율을 비교하는 법에 대해 다루도록 한다.

 

 모비율(Population Proportion)을 기반한 추론


본 섹션에서는 모비율을 기반으로 한 신뢰구간을 추론하는 것에 대해 다룬다.

모비율 기반 추론을 설명하는것에 앞서 모비율을 먼저 설명한다.

  ○ 모비율이란 모집단이 어떤 특성을 가지는 비율을 의미한다.

    ▷ 특성을 가진 표본과 가지지 못한 표본으로 나눌 수 있는데 이는 이항분포로 모사할 수 있다.

    ▷ 모집단에서 표본을 추출했을때 특성을 가질 확률을 p로, 가지지 못할 확률을 1-p로 둘 수 있고 여기서 p가 모비율이다.

    ▷ 해당 과정을 그림으로 표현하면 다음과 같다.


모비율에 대한 설명을 했으므로 모비율 기반 추론은 다음과 같이 설명하도록한다.


먼저 위에서 설명했다싶이 모집단에서 추출한 표본에서 특성을 유무를 따지는 경우 이항분포로 표현할 수 있다.

  ○ 여기서 특성을 가질 확률(표본비율)이 p인 경우 다음과 같이 표현할 수 있다.


여기서 n이 충분히 크다면 위의 이항분포는 중심극한정리(링크)에 따라 다음과 같이 정규분포로 근사화할 수 있다.


정규분포는 다음과 같이 표준정규분포로 변경할 수 있다.


그리고 표준정규분포를 따른다면 다음과 같이 신뢰구간을 설정할 수 있다.

 


추출한 표본을 이용하여 양방향 신뢰구간을 계산하면 다음과 같다.


p 대신 를 사용하는 경우 표준오차는 다음과 같이 계산될 수 있다.


이 근사치는 x와 n-x가 5보다 클 경우에 합리적인 결과를 도출한다.

 

만약 상계(upper bound)가 1보다 클 경우에는 상계를 1을 사용한다.

  ○ 하계(lower bound) 역시 유사하게 도출된다.


단방향 신뢰구간은 다음과 같이 도출된다.



즉 p의 범위는 다음과 같다.


이는 다음과 같다.


양방향과 마찬가지로 이 근사치는 xn-x가 5보다 클 경우에 합리적인 결과를 도출한다.

 

 모비율의 가설검정

위에서 신뢰구간을 도출하는 법을 다루었다면 여기서는 귀무가설검정에 대해 다루도록한다.
먼저 유의수준 α에 대해 양방향 가설검정은 다음과 같이 표현할 수 있다.


p-값은 이 데이터가 귀무가설이 참일때 해당 데이터가 옳은지 여부를 판단할 수 있게 해준다.

인 경우


만약 가 5보다 크다면, 표준정규분포로 근사화가 가능하다.




연속성 수정(continuity correction)

정규분포 근사를 개선하기 위해 다음과 같은 보정을 수행할 수 있다.

  ○ 인 경우: 다음과 같이 위 식의 분자에 값이 사용된다.


  ○ 인 경우: 다음과 같이 위 식의 분자에 값이 사용된다.


규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.


모비율에서의 단방향 귀무가설 검증 


만약 라면 p값은 다음과 같이 계산될 수 있다. 


규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.


만약 라면 p값은 다음과 같이 계산될 수 있다. 


규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.



 표본 크기 계산

표본크기 n에 대한 정밀도의 정도를 평가하기 위해 사용가능한 방법은 양방향 신뢰구간의 길이 L를 고려하는 것이다.

만약 신뢰구간 1-α가 사용된다면, 신뢰구간의 길이는 다음과 같다.


표본크기 n은 다음과 같이 계산될 수 있다.


n이 가장 큰 경우는 다음과 같다.


만약 가 0.5에서 충분히 많이 떨어져있는 경우라면, 이며 다음과 같이 표본크기가 계산될 수 있다.


 두 모비율의 비교


두 모비율이 존재하고 서로 독립적이라면 비교가 가능하다.

두 모비율을 비교하는 법을 설명하기 위해 다음과 같이 독립적인 XY가 있다고 가정하자.


이 경우 샘플에 대한 모비율 확률은 다음과 같다.


신뢰구간에 대한 통계 z값은 다음과 같이 계산할 수 있다.


100(1-α)% 양방향 신뢰구간에 대한 근사치는 다음과 같다.


100(1-α)% 단방향 신뢰구간에 대한 근사치는 다음과 같다.


유의수준 α을 사용하는 양방향 가설검정은 다음과 같이 정리될 수 있다.


p를 모를 경우 p의 통합추정치를 사용할 수 있다.


규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.


단방향 가설검정에 대해서는 다음과 같이 된다.

규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.


규모 α 가설검정은일 때 귀무가설을 채택하며 일때 귀무가설을 기각한다.



반응형

댓글