신뢰구간추정(t-분포, 표준정규분포) |
본 포스팅에서는 신뢰구간에 대한 설명(Confidence interval)과 스튜던트 t-분포(Student's t-distribution), 표준정규분포(Standard Normal Distribution)을 사용하여 신뢰구간을 추정하는 방법에 대해 서술하도록 한다.
신뢰구간(Confidence interval)이란? |
신뢰구간(Confidence interval)은 신뢰수준의 확률로 알려지지 않은 매개변수(Parameter) 가 있을 것으로 예상되는 구간이다.
○ 예를들어 신뢰수준이 95%인 구간 (A,B)가 있다면 해당 매개변수는 구간 (A,B)에 있을 확률이 95%이다.
신뢰수준(Confidence level)
신뢰수준(Confidence level)은 매개변수가 특정 구간에 있을 확률이다.
○ 매개변수의 측정치에 대해 어느정도 신뢰할 수 있는지 보여주는 수치이다.
○ 정해지지 않은 신뢰수준에 대해선 로 많이 표현하기도 한다.
○ 신뢰수준은 보통 90%, 95%, 99%이 전형적으로 사용된다.
구간추정의 표기
구간 에서 인 경우를 고려해보자. (는 0에서 1 사이의 값을 가진다.)
○ 이 경우 구간 은 신뢰구간이라 부른다.
○ 는 신뢰수준 혹은 신뢰의 정도라 불린다.
○ 과 는 신뢰하한(Lower confidence limit) 및 신뢰상한(Upper confidence limit)이라 불린다.
※ 점추정과 구간추정
○ 점추정(Point estimate): 점추정은 하나의 값을 추정한다.
○ 구간추정(interval estimate): 구간추정은 매개변수 값을 찾을 것으로 예상되는 구간을 결정하는 것이다.
※ 추정량(Estimator)과 추정치(Estimate)
○ 추정량(Estimator): 추정량은 측정할 때 사용하는 통계자료이다.
▷ 표본평균, 표본분산, 표본비율 등
○ 추정치(Estimate): 추정치는 추정량에서 관측되는 구체적인 수치값이다.
▷ 실제 표본평균, 표본분산, 표본비율 등의 수치 값
t-분포와 모집단 평균에서의 신뢰구간 추론 |
t-분포를 이용한 신뢰구간의 추론 |
○ t-procedure를 기반으로한 모집단 평균을 이용한 추론법은 많은 표본(30개 이상)에서 사용되는 근사법이다.
▷ 또한 작은 표본에서도 사용될 수 있으나, 이 경우 데이터가 근사적으로 정규분포 형태를 따라야 한다.
○ 비모수적(Nonparametric techniques) 기법은 명확하게 정규분포형태를 따르지 않는 작은 표본에서 사용될 수 있다.
t-분포 사용의 적합성
그리고 표본평균값이 표준화를 할 경우 다음과 같이 표준정규분포를 따른다.
하지만 우리는 σ를 알지 못하기 때문에 이를, 표본분산 S로 대체하면 다음과 같이 된다.
○ 표본분산 S로 대체했을 경우 표준정규분포가 t분포로 대체되는 과정은 선행 포스팅(여기, t-통계량)의 가장 마지막 섹션을 참고바란다.
따라서 아래와 같은 신뢰구간을 얻을 수 있다.
양측 t-구간(Two-Sided t-Interval) |
위에서는 평균 μ와 분산 σ² 를 알 수 없고 표본 크기가 충분하다면 t-분포를 통해 신뢰구간을 도출할 수 있다는 사실을 보였다.
이 섹션에서는 위의 내용을 이용하여 양방향 t-구간을 구체적으로 어떻게 도출하는지 살펴본다.
양방향 신뢰구간
신뢰수준 1-α인 신뢰구간에서 표본의 수 n, 모집단평균 μ, 표준편차 s, 표본평균 이라면, 다음과 같이 표현이 가능하다.
이 구간은 양측 t-구간 혹은 미지 신뢰구간의 분산(variance of unknown confidence interval)으로 불린다.
○ 아래 그림은 양방향 신뢰구간을 도식적으로 보여주는 그림이다.
신뢰구간의 길이
양방향 t-구간의 길이는 다음과 같다.
여기서는 임계점이고, 는 평균의 표준오차이며 의 정의는 다음과 같다.
의 표준오차가 감소하면, 는 μ의 더욱 정확한 측정이 된다. 그리고 신뢰구간의 길이는 감소한다.
신뢰구간의 길이는 신뢰수준에 의존한다. 신뢰수준이 증가하면, 신뢰구간의 길이 역시 증가한다.
※ 신뢰구간에서 표본 크기의 영향
신뢰구간의 길이는 다음과 같다.
고정된 임계점 에 대해, 신뢰구간의 길이는 표본 크기 n의 제곱근값에 반비례한다.
만약 보다 작은 길이를 사용하는 신뢰구간을 요구할 경우에는 다음과 같이 표본크기를 구할 수 있다.
만약 과 s를 아는 경우라면, 이 부등식이 적절한 표본크기를 찾는데 사용될 수 있다.
※ 추가적인 표본추출
표본 크기가 이고 표본 표준편차가 s인 경우 신뢰구간의 길이는 다음과 같다.
신뢰구간의 길이를 줄이기 위해서는, 추가적인 표본 개수가 늘어나야 한다.
단방향 t-구간(One-Sided t-Interval) |
"t-분포를 이용한 신뢰구간의 추론" 섹션에서 설명한 아래 식을 이용해서 단방향 구간을 구할 수 있다.
임계점 의 정의는 다음을 암시한다.
위 식은 다음과 같이 변형될 수 있다.
그리고 μ의 구간은 다음과 같다.
이는 μ에 대해 1-α의 신뢰수준을 사용한 단방향 신뢰 구간이다.
표본평균이 이고 표본 표준편차가 s인 n개의 연속적인 데이터 관측치의 표본을 기반으로 하여 모집단 평균 μ에 대해 1-α의 신뢰수준을 사용한 단방향 신뢰구간은 다음과 같다.
하계신뢰구간
하계신뢰구간은 다음과 같으며 상계(Upper bound)를 가진다.
상계신뢰구간
상계신뢰구간은 다음과 같으며 하계(Lower bound)를 가진다.
상계/하계신뢰구간과 양방향 신뢰구간을 그림으로 표현하면 다음과 같다.
표준정규분포를 이용한 신뢰구간의 추론: z-구간(z-Intervals) |
만약 아래와 같은 상황이라면 표준정규분포를 사용하여 신뢰구간을 예측할 수 있다.
그리고
α는 0~1의 값을 가지며, 는 다음과 같이 정의된다.
에 대해, 100(1-α)% 양방향 신뢰구간이 다음과 같이 주어진다면 그림과 같이 표현될 수 있다.
양방향 z-구간(two-Sided z-Interval) |
만약 알려진 모집단 표준편차 σ와 표본평균 을 사용하여 모집단 평균 μ에 대해 신뢰 구간을 구성할 필요가 있을때, 그때에는 근사 신뢰구간은 다음과 같다.
이는 양방향 z-구간 혹은 알려진 분산 신뢰구간(variance known confidence interval)이라 불린다.
단방향 z-구간(one-Sided z-Interval) |
알려진 모집단 표준편차 σ와 표본평균 을 사용하여 모집단 평균 μ에 대해 1-α수준의 단방향 신뢰구간은 다음과 같다.
상계신뢰구간
하계신뢰구간은 다음과 같으며 상계(Upper bound)를 가진다.
하계신뢰구간
상계신뢰구간은 다음과 같으며 하계(Lower bound)를 가진다.
'Mathematics > 확률과 통계' 카테고리의 다른 글
가설검정(유의수준, t-검정, z-검정)-확률과통계(23) (0) | 2020.08.09 |
---|---|
가설검정(귀무가설, 대립가설, p-값)-확률과통계(22) (0) | 2020.08.08 |
점추정(적률법, 최대우도추정)-확률과통계(20) (0) | 2020.08.03 |
점추정(비편향추정,최소분산평가)-확률과통계(19) (0) | 2020.08.02 |
표본분포(표본비율, 표본평균, 표본분산)-확률과통계(18) (0) | 2020.08.01 |
댓글