두개의 표본 비교-확률과통계(24)

두개의 표본 비교

본 포스팅에서는 두 개의 표본(짝을 이룬 표본, 독립적인 두 표본)을 비교하는 방법에 대해 다루도록 한다.

짝을 이룬 표본의 비교

아래와 같은 모집단 A, B의 집합이 있다고 가정하자.

○ 누적 분포함수를 가지는 모집단 A에서의 데이터 관측치 의 집합

○ 누적 분포함수를 가지는 모집단 B에서의 데이터 관측치 의 집합

위의 두개의 모집단에서 과 를 비교하는데 두 모집단에서 분산이 다를 경우라면,

두 모집단에서 표본 추출을 무작위로 선정하는 것이 좋은 방법이다.

○ 무작위 표본추출은 특정 종류의 대상이 선호되는 것에서 발생할 수 있는 편향성을 제거하는 데 도움을 준다.

▷ 맹검법(Blind experiment), 이중맹검법(double-blind experiment), 플라시보(Placebo)가 대표적인 예이다.

먼저 하나의 확률변수에 대한 귀무가설을 고려해보자.

○ 작은 p-값은 귀무가설이 신뢰성이 떨어짐을 의미하고, 여기에는 두 집단간의 상당히 큰 차이가 있음을 나타낸다.

○ 큰 p-값은 두 집단 평균의 차이가 크지 않음을 나타낸다.

두개 표본을 비교하기위해 귀무가설을 검증하는 방법과 거의 동일하다.

○ 두개의 표본을 하나의 표본처럼 만들어 p-값을 구하여 비교를 수행한다.

▷ 두개의 표본을 비교하기 위해서 두 개 표본의 차를 이용하여 한개의 표본처럼 만든다.

▷ 이를 이용하면 p-값 찾는 방법은 하나의 표본 문제와 같은 방식으로 찾을 수 있다.

○ 상세내용은 아래 섹션에서 설명하도록 한다.

짝을 이룬 표본의 분석

짝을 이룬 표본의 경우 두 표본의 차를 이용해 다음과 같이 비교를 수행한다.

○ 결론적으로는 두 표본 평균의 차가 되며 아래와 같이 설명된다.

먼저 데이터 관측치 이 존재한다고 보자.

이는 알려지지 않은 평균값 μ(평균 차이)에 대한 추론을 만들려고한다.

이를 위해 아래와 같이 두 표본의 차를 이용해서 하나의 표본으로 만든다.

각 데이터의 관측치는 다음과 같이 표현할 수 있다.

여기서 는 A의 평균값, 는 i번째 관측치가 평균치로부터 떨어진정도, 는 랜덤에러이다.

그렇다면 아래와 같이 새로운 표본 관측치 는 다음과 같이 표현할 수 있다.

이 오차 항은 기대치가 0인 관측치라 볼 수 있다.

따라서 z는 평균 를 갖는 분포로부터의 관측치로 간주 될 수 있으며 값에 대해서는 좌우되지 않는다.

독립적인 두 표본의 비교

독립적인 표본의 분석

짝을 이루지 않은 경우에서의 두 표본을 비교하는 것은 정규분포를 이용한다.

이를 설명하기 위해 아래와 같은 두개의 표본을 고려한다.

○ 모집단 A: | 모집단 규모: n | 표본평균: | 표본평균:

○ 모집단 B: | 모집단 규모: m | 표본평균: | 표본평균:

의 점추정은 이다.

표준오차는 다음과 같다.

만약 과 를 알 수 없을땐 표준오차는 다음과 같이 표본표준편차를 사용하여 계산된다.

모집단 분산이 알려지지 않았을 경우,

두 표본 t-검정을 수행하기 위한 표준오차는 다음과 같다.

의 경우

모집단 분산,이 알려진 값일 경우는, 두 표본 z-검정을 사용한다.

Smith-Satterthwaite 검정

Smith-Satterthwaite 검정은 정규분포를 가정하여 비교를 수행하는 검정법이다.

다음은 Smith-Satterthwaite 검정법을 설명한다.

에 대한 추론은 점추정 을 사용하며 다음과 같은 상황을 가정한다.

그렇다면 표준오차는 다음과 같은 방식으로 추정된다.

이 경우 p값과 임계점은 다음과 같이 t-분포를 통해 계산된다.

즉 검정통계는 다음과 같다.

자유도는 다음과 같이 계산된다.

위의 값을 사용하거나, 혹은 반올림을 한 정수를 사용한다.

자유도를 계산하기 위한 더 단순한 방법으로는 다음과 같이 계산할 수 있으나 이는 위의 계산법보단 덜 강력한 방법이다.

양방향 1-α 수준을 가진 의 신뢰구간은 다음과 같다.

일반적인 형식은 다음과 같다.

단뱡향 신뢰구간은 다음과 같다.

양방향 가설검정문제에 대해서

여기서 고정된 δ값(일반적으로 0이다.)에 대해 t-통계는 다음과 같이 근사치를 계산할 수 있다.

양방향 p-값은 로 계산된다.

여기서 X는 t-분포로 가정되고 자유도는 ν를 가진다.

단방향 p-값은 과 로 계산된다.

크기 α 양방향 가설검정은

○ 일 경우 귀무가설을 채택한다.

○ 일 경우 귀무가설을 기각한다. (단방향인 경우, 혹은 )

통합 분산 절차(Pooled Variance Procedure)

만약 두 분산이 같다면 통합분산절차(Pooled Variance Procedure)를 통해 모집단 비교가 가능하다.

이 절차는 다음과 같이 설명하도록 한다.

먼저 을 가정하며, 표본분산과 모집단분산의 비율은 다음과 같이 카이제곱분포를 통해 모델링이 가능하다.

위의 분포가 독립적이라면 다음과 같다.

에 대해 통합분산 추정을 다음과 같이 정의한다.

여기서 이면,

통합분산 추정이 적용되었을때, p-값과 임계점은 n+m-2자유도를 가지는 t-분포를 사용하여 계산한다.

일반적인 형식은 다음과 같다.

z-절차

만약 표준편차 를 안다면, 두 표본 z-검정이 사용된다.

○ 이 경우 p-값과 임계점은 표준정규분포를 사용하여 계산된다.

모집단 A에 대해서는 규모 n, 평균 , 분산 를 가지는 표본과

모집단 B에 대해서는 규모 m, 평균 , 분산 를 가지는 표본을 가진다고 가정하자.

각 모집단 평균 차이에 대한 양방향 1-α 수준 신뢰 구간은 다음과 같다.

단방향 신뢰구간은 다음과 같다.

귀무가설()에 대한 근사 z통계는 다음과 같다.

양방향 구간에 대한 p-값은 다음과 같다.

단방향 구간에 대한 p-값은 다음과 같다.

규모 α의 양방향 가설 검정은 다음과 같을때 귀무가설을 채택한다.

규모 α의 양방향 가설 검정은 다음과 같을때 귀무가설을 기각한다.

규모 α의 단방향 가설 검정은 다음과 같을때 귀무가설을 기각한다.

표본 크기 계산

표본의 크기 n과 m을 역으로 계산하고 싶을 필요가 있을때가 있다.

이런 경우는 일반적으로 신뢰구간 길이를 설정하고 표본의 크기를 결정한다.

신뢰구간의 길이는 다음과 같이 계산될 수 있다.

표준편차를 알고 있는 경우는 다음과 같다.

만약 n=m으로 가정한다면 다음과 같이 표본의 크기를 계산할 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'Mathematics > 확률과 통계' 카테고리의 다른 글

이산데이터 분석(분할표)-확률과통계(26) (0)	2020.08.14
이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25) (0)	2020.08.13
가설검정(유의수준, t-검정, z-검정)-확률과통계(23) (0)	2020.08.09
가설검정(귀무가설, 대립가설, p-값)-확률과통계(22) (0)	2020.08.08
신뢰구간추정(스튜던트 t-분포, 표준정규분포)-확률과통계(21) (0)	2020.08.04

EG공간

두개의 표본 비교-확률과통계(24)

'Mathematics > 확률과 통계' 카테고리의 다른 글

댓글

티스토리툴바

두개의 표본 비교-확률과통계(24)

'Mathematics > 확률과 통계' 카테고리의 다른 글

관련글

댓글

티스토리툴바