본문 바로가기
Mathematics/확률과 통계

표본분포(표본비율, 표본평균, 표본분산)-확률과통계(18)

by 콩돌 2020. 8. 1.
반응형


 표본분포(표본비율, 표본평균, 표본분산)


본 포스팅에선 표본분포에 대해 다루도록 한다.

포본분포의 대표적인 예로 표본비율(Sample Proportion), 표본평균(Sample mean), 표본분산(Sample variance)의 분포가 존재한다.

좀 더 상세히는 각 표본 매개변수가 어떤분포를 따르는지와, 표준오차(Standard error)에 대해 다룬다.  


 표본 분포(Sampling Distribution)


표분 분포(Sampling Distribution)는 모집단(Population)에서 임의로 추출하여 크기가 n인 확률표본 중 확률변수의 분포이다.

  ○ 모집단에서 임의로 추출한 표본은 표본 비율, 표본 평균, 표본 분산과 같은 값을 가질 수 있다.

    ▷ 표본비율(Sample Proportion): 모집단에서 추출한 표본들이 어떤 특징을 가지는 것들에 대한 비율

    ▷ 표본평균(Sample Mean): 모집단에서 추출한 표본들의 평균

    ▷ 표본분산(Sample Variance): 모집단에서 추출한 표본의 분산

  ○ 상세 내용은 아래 각 섹션에서 다루도록 한다.

 

 표본 비율(Sample Proportion)

표본비율(Sample Proportion)은 모집단에서 추출한 표본들이 어떤 특징을 가지는 것들의 비율이다.

  ○ 말이 어려운데 베르누이 시행에서 성공확률이 표본 비율이라 볼 수 있다.


이항분포에서 표본비율의 분포는 다음과 같이 설명될 수 있다.

만약라면, 표본비율 은 다음과 같이 정규분포(Normal Distribution)를 근사분포로 표현할 수 있다..


위 분포의 예상치(평균)과 분포는 아래와 같이 계산된다.


표본 비율의 표준 오차(Standard error of the sample proportion)

표본비율의 표준오차는 다음과 같이 정의된다. 

 

그러나 p가 일반적으로 모르는 경우가 많다.

따라서 평가자는 p를 관측되는 값 으로 대체하면 다음과 같은 표본비율의 표준오차를 구할 수 있다.


여기서, 표준오차는 n의 크기와는 반비례관계이다.

즉, 표본이 커지면 커질수록 표준오차는 작아지며 해당 매개변수의 값은 더 정확해진다.


 

 표본 평균(Sample Mean)

표본평균(Sample Mean)은 모집단에서 임의로 추출된 표본들의 평균을 나타낸다. 

표본을 같은 집단에서 추출된 표본의 데이터에 따라 표본평균 값은 달라진다. 

  ○ 이 말의 의미는 추출된 집단에서의 표본 평균은 특정 분포를 따를 수 있음을 의미한다.


표본평균의 분포(Distribution of Sample Mean)

이 평균 와 분산 를 가지는 확률분포로부터의 관측치 표본이라 하자.

그러면 중심극한정리(Central Limit Theorem)에 따라 표본 평균이 다음과 같이 정규분포(Normal Distribution)를 근사 분포를 가지게된다.


표본평균의 표준 오차(Standard error of the sample mean)

표본평균의 표준 오차는 다음과 같이 정의된다. 


그러나 보통 는 알 수 없는 경우가 많다. 

따라서 평가자는 를 다음과 같이 관측되어지는 값 s로 대체하기도 한다. 

  ○ 이 경우 n이 충분히 커야한다.


여기서, 표준오차는 n의 크기와는 반비례관계이다.

즉, 표본이 커지면 커질수록 표준오차는 작아지며 해당 매개변수의 값은 더 정확해진다.

  

 표본 분산(Sample Variance)

표본분산(Sample Variance)은 모집단에서 임의로 추출된 표본들의 분산을 나타낸다. 

표본을 같은 집단에서 추출된 표본의 데이터에 따라 표본분산 값은 달라진다. 

  ○ 이 말의 의미는 추출된 집단에서의 표본 분산은 특정 분포를 따를 수 있음을 의미한다.


표본분산의 분포(Distribution of Sample Variance)

이 평균 와 분산 를 가지는 확률분포로부터의 관측치 표본이라 하자.

표본분산은 다음과 같이 카이제곱분포(Chi-Squared Distribution)를 기반으로한 분포로 표현 가능하다.


위 내용을 정리하자면 다음과 같다.

  → 만약 가 평균 와 분산 를 가지는 정규 모집단의 표본이라면, 

  → 와 는 독립적인 확률변수이며, 

  → 는 평균 와 분산 를 가지고 정규화되고, 

  → 는 n-1 자유도를 가지는 카이제곱분포가 된다.

이 내용에 대한 증명은 다음과 같다.


증명

를 다음과 같이 둔다.


그렇다면 아래와 같다.


혹은 다음과 같이도 표현이 가능하다.


위 식을 로 나누면 다음과 같다.


여기서 X와 Y를 독립적인 카이제곱분포의 확률변수라 두고 각각 자유도를 m과 n를 가진다고 둔다.

그러면 Z=X+Y는 m+n의 자유도를 가지는 카이제곱분포의 확률분포를 가진다.


위의 수식에서 다음과 같다.


그리고 


따라서 다음과 같다.



t-통계량(t-statistic)

예상치(평균)를 표준정규분포로 치환할 경우 해당 확률변수는 스튜던트 t-분포(Student's t-distribution)로 표현이 가능하다.

  ○ 이 사실은 매우 중요한데 이는 신뢰구간을 구성하는대 이 내용이 기반이 된다.

  ○ 이 내용에 대한 증명과정은 다음과 같다.


그리고 


따라서 


반응형

댓글