본문 바로가기
Mathematics/확률과 통계

신뢰구간추정(스튜던트 t-분포, 표준정규분포)-확률과통계(21)

by 콩돌 2020. 8. 4.
반응형


 신뢰구간추정(t-분포, 표준정규분포)


본 포스팅에서는 신뢰구간에 대한 설명(Confidence interval)과 스튜던트 t-분포(Student's t-distribution), 표준정규분포(Standard Normal Distribution)을 사용하여 신뢰구간을 추정하는 방법에 대해 서술하도록 한다. 

 

 신뢰구간(Confidence interval)이란?

신뢰구간(Confidence interval)은 신뢰수준의 확률로 알려지지 않은 매개변수(Parameter) 가 있을 것으로 예상되는 구간이다.

  ○ 예를들어 신뢰수준이 95%인 구간 (A,B)가 있다면 해당 매개변수는 구간 (A,B)에 있을 확률이 95%이다.


신뢰수준(Confidence level)

신뢰수준(Confidence level)은 매개변수가 특정 구간에 있을 확률이다.

  ○ 매개변수의 측정치에 대해 어느정도 신뢰할 수 있는지 보여주는 수치이다.

  ○ 정해지지 않은 신뢰수준에 대해선 로 많이 표현하기도 한다. 

  ○ 신뢰수준은 보통 90%, 95%, 99%이 전형적으로 사용된다.


구간추정의 표기

구간 에서 인 경우를 고려해보자. (는 0에서 1 사이의 값을 가진다.)

  ○ 이 경우 구간  신뢰구간이라 부른다.

  ○ 는 신뢰수준 혹은 신뢰의 정도라 불린다.

  ○  과 는 신뢰하한(Lower confidence limit) 및 신뢰상한(Upper confidence limit)이라 불린다.

 

※ 점추정과 구간추정

  ○ 점추정(Point estimate): 점추정은 하나의 값을 추정한다.

  ○ 구간추정(interval estimate): 구간추정은 매개변수 값을 찾을 것으로 예상되는 구간을 결정하는 것이다.


※ 추정량(Estimator)과 추정치(Estimate)

  ○ 추정량(Estimator): 추정량은 측정할 때 사용하는 통계자료이다. 

    ▷ 표본평균, 표본분산, 표본비율 등

  ○ 추정치(Estimate): 추정치는 추정량에서 관측되는 구체적인 수치값이다. 

    ▷ 실제 표본평균, 표본분산, 표본비율 등의 수치 값



 t-분포와 모집단 평균에서의 신뢰구간 추론


 t-분포를 이용한 신뢰구간의 추론

  ○ t-procedure를 기반으로한 모집단 평균을 이용한 추론법은 많은 표본(30개 이상)에서 사용되는 근사법이다.

    ▷ 또한 작은 표본에서도 사용될 수 있으나, 이 경우 데이터가 근사적으로 정규분포 형태를 따라야 한다.

  ○ 비모수적(Nonparametric techniques) 기법은 명확하게 정규분포형태를 따르지 않는 작은 표본에서 사용될 수 있다. 


t-분포 사용의 적합성

t-분포의 사용이 적합한 경우는 다음과 같은 조건이 충족될 경우이다.
  ○ 모집단 분포가 정규분포 혹은 표본 사이즈가 충분히 크다.(n≥30)
    ▷ 혹은 표본이 적더라도 데이터가 근사적으로 정규분포를 따른다 가정한다. 
  ○ 알려지지 않은 평균 μ과 알려지지 않은 분산 σ²이 있다.

μ의 점추정량은 표본평균이이며 다음과 같이 계산된다.


그리고 표본평균값이 표준화를 할 경우 다음과 같이 표준정규분포를 따른다.


하지만 우리는 σ를 알지 못하기 때문에 이를, 표본분산 S로 대체하면 다음과 같이 된다.

  ○ 표본분산 S로 대체했을 경우 표준정규분포가 t분포로 대체되는 과정은 선행 포스팅(여기, t-통계량)의 가장 마지막 섹션을 참고바란다.


따라서 아래와 같은 신뢰구간을 얻을 수 있다.




 양측 t-구간(Two-Sided t-Interval)

위에서는 평균 μ 분산 σ² 를 알 수 없고 표본 크기가 충분하다면 t-분포를 통해 신뢰구간을 도출할 수 있다는 사실을 보였다.

이 섹션에서는 위의 내용을 이용하여 양방향 t-구간을 구체적으로 어떻게 도출하는지 살펴본다.


양방향 신뢰구간

신뢰수준 1-α인 신뢰구간에서 표본의 수 n, 모집단평균 μ, 표준편차 s, 표본평균 이라면, 다음과 같이 표현이 가능하다.


이 구간은 양측 t-구간 혹은 미지 신뢰구간의 분산(variance of unknown confidence interval)으로 불린다.

  ○ 아래 그림은 양방향 신뢰구간을 도식적으로 보여주는 그림이다.



신뢰구간의 길이

양방향 t-구간의 길이는 다음과 같다.


여기서는 임계점이고, 는 평균의 표준오차이며 의 정의는 다음과 같다.


의 표준오차가 감소하면, 는 μ의 더욱 정확한 측정이 된다. 그리고 신뢰구간의 길이는 감소한다. 

신뢰구간의 길이는 신뢰수준에 의존한다. 신뢰수준이 증가하면, 신뢰구간의 길이 역시 증가한다.


이 확률 상태는 위의 신뢰구간(고정된 값 μ를 중앙에 둔)에 1-α의 확률이 있는 것으로 해석되어져야 한다. 
엄밀히 말하자면, 확률변수 가 정규적으로 분포해있을 때 는 t-분포를 가진다.

중심극한정리(Central Limit Theorem)는 충분히 큰 표본 크기에 대해 의 분포가 근사적으로 정규분포임을 나타낸다. 그리고 이는 데이터 관측치의 실제 분포에 상관없이 t-구간을 구축하는 것이 합리적이라는 것을 보여준다.

 

※ 신뢰구간에서 표본 크기의 영향 

신뢰구간의 길이는 다음과 같다.


고정된 임계점 에 대해, 신뢰구간의 길이는 표본 크기 n의 제곱근값에 반비례한다.

만약 보다 작은 길이를 사용하는 신뢰구간을 요구할 경우에는 다음과 같이 표본크기를 구할 수 있다.

 


만약 과 s를 아는 경우라면, 이 부등식이 적절한 표본크기를 찾는데 사용될 수 있다.


※ 추가적인 표본추출

표본 크기가 이고 표본 표준편차가 s인 경우 신뢰구간의 길이는 다음과 같다.


신뢰구간의 길이를 줄이기 위해서는, 추가적인 표본 개수가 늘어나야 한다. 

 


 단방향 t-구간(One-Sided t-Interval)

"t-분포를 이용한 신뢰구간의 추론" 섹션에서 설명한 아래 식을 이용해서 단방향 구간을 구할 수 있다.


임계점 의 정의는 다음을 암시한다.


위 식은 다음과 같이 변형될 수 있다.


그리고 μ의 구간은 다음과 같다.


이는 μ에 대해 1-α의 신뢰수준을 사용한 단방향 신뢰 구간이다.


표본평균이 이고 표본 표준편차가 s인 n개의 연속적인 데이터 관측치의 표본을 기반으로 하여 모집단 평균 μ에 대해 1-α의 신뢰수준을 사용한 단방향 신뢰구간은 다음과 같다.


하계신뢰구간

하계신뢰구간은 다음과 같으며 상계(Upper bound)를 가진다.


상계신뢰구간

상계신뢰구간은 다음과 같으며 하계(Lower bound)를 가진다.


상계/하계신뢰구간과 양방향 신뢰구간을 그림으로 표현하면 다음과 같다.




 표준정규분포를 이용한 신뢰구간의 추론: z-구간(z-Intervals)


만약 아래와 같은 상황이라면 표준정규분포를 사용하여 신뢰구간을 예측할 수 있다.

  ○ 모집단 분포가 정규분포 혹은 표본 사이즈가 충분히 크다.
  ○ 미지의 평균 μ과 알려진 분산 σ²이 있다.

표준정규분포를 이용하여 신뢰구간을 계산하는 과정은 "t-분포를 이용한 신뢰구간의 추론" 섹션에서 보여주는 과정을  t-분포 대신 표준정규분포로 바꿔서 수행하면된다.
아래는 그 과정을 보여준다.

μ의 점추정치는 표본 평균이다.

그리고


α는 0~1의 값을 가지며, 는 다음과 같이 정의된다.


에 대해, 100(1-α)% 양방향 신뢰구간이 다음과 같이 주어진다면 그림과 같이 표현될 수 있다.



 양방향 z-구간(two-Sided z-Interval)

만약 알려진 모집단 표준편차 σ와 표본평균 을 사용하여 모집단 평균 μ에 대해 신뢰 구간을 구성할 필요가 있을때, 그때에는 근사 신뢰구간은 다음과 같다.


이는 양방향 z-구간 혹은 알려진 분산 신뢰구간(variance known confidence interval)이라 불린다.

 

 단방향 z-구간(one-Sided z-Interval)

알려진 모집단 표준편차 σ와 표본평균 을 사용하여 모집단 평균 μ에 대해 1-α수준의 단방향 신뢰구간은 다음과 같다.


상계신뢰구간

하계신뢰구간은 다음과 같으며 상계(Upper bound)를 가진다.


하계신뢰구간

상계신뢰구간은 다음과 같으며 하계(Lower bound)를 가진다.


반응형

댓글