본문 바로가기
Mathematics/확률과 통계

One-Way ANOVA(분산분석, Analysis Of Variance)-확률과통계(27)

by 콩돌 2020. 8. 17.
반응형


 One-Way ANOVA(Analysis Of Variance)


본 포스팅에서는 One-Way ANOVA(Analysis Of Variance)에 대해 다룬다.

좀더 상세하게는 아래와 같은 내용도 다룬다.

  ○ SSTr(Sum of Squares for Treatments), SSE(Sum of Squares for error), SST(Total sum of squares)

  ○ MSE(Mean Square Error), MSTr(Mean Squares for Treatments)

  ○ 분산표, 표본크기 등


 일원 레이아웃(One Factor Layouts)

 

앞선 포스팅(링크)에서는 두 모집단의 비교를 수행하였고, 본 포스팅에서는 다수의 모집단을 비교하는 방법에 대해 다루도록한다.

기본적인 컨셉은 똑같고 이를 확장한 것이라 생각하면 된다. 


 일원 레이아웃(One Factor Layouts)

알려지지 않는 모집단 평균 을 가지는 k 모집단에 대해 조사해야할 필요가 있을때가 있다.

일원ANOVA(One-Way Analysis Of Variance) 방법론은 세 개 혹은 그 이상의 모집단 비교를 하는데 적합한 방법론이다.


관측치 i 모집단에서 j번째 관측치를 나타낸다.

모집단 i의 표본은 개의 관측치 로 구성된다.


※ 표본크기 가 모두 동일하다면 데이터 집합은 균형이 잡혔다고(Balanced)하며, 만약 각 표본크기가 다르다면 균형이 잡히지 않았다고(unbalanced) 표현한다.


총 표본크기는 다음과 같다.


이 종류의 데이터 집합은 일원 레이아웃(One-way or One factor Layout)으로 불린다.


하나의 펙터(a single factor)은 고려 중인 k 모집단에 해당하는 k 수준을 갖는다고 한다.


완전한 무작위 설계(Completely randomized designs): k 모집단에서  총 유닛을 임의로 할당되는 실험이 수행하는 것이다.


모델링 가정


이는 다음과 동일하다.


알려지지 않은 모집단 평균의 점추정은 다음과 같다.


귀무가설에 대한 표현은 다음과 같이 된다.


귀무가설의 채택은 모집단 평균이 같지 않다는 증거가 없음을 나타낸다.

귀무가설의 기각은 몇몇의 모집단 평균이 서로 같지 않다는 증거가 있다는 것을 암시한다.

 

 총 제곱 합 분할(Partitioning the Total Sum of Squares)

본 섹션에서는 SSTr(Sum of Squares for Treatments), SSE(Sum of Squares for error), SST(Total sum of squares)의 정의에 대해 다루도록한다. 

먼저 모든 모집단 표본의 평균이며, 아래와 같이 계산된다.


SSTr(Sum of Squares for Treatments)

SSTr(Sum of Squares for Treatments)의 정의는 다음과 같다.


위의 식을 풀면 아래와 같은 형태를 가지게 된다.


SSE(Sum of Squares for error)

SSE(Sum of Squares for error)의 정의는 다음과 같다.


위의 식을 풀면 아래와 같은 형태를 가지게 된다.



SST(Total sum of squares) 

SST(Total sum of squares) 의 정의는 다음과 같다.


위의 식을 풀면 아래와 같은 형태를 가지게 된다.


SST는 다음과 같이 SSTr과 SSE 합으로 표현할 수 있다.


위 사실은 아래와 같이 증명된다.

 

p-값의 고려

요인 수준 평균이 모두 같다는 귀무가설의 타당성은 SSTr과 SSE의 상대적 크기에 따라 다르다.

 

 분산표의 분석(The analysis of Variance Table)

각 모집단 표본의 분산은 아래와 같이 계산된다.


MSE(평균좌승오차, Mean Square Error)

SSE는 다음과 같이 표본의 분산으로 표현이 가능하며, SSE와 모집단 분산의 비율은 카이제곱분포의 형태를 따른다.


MSE는 다음과 같이 정의된다.


MSE가 SSE와 d.f.의 비율로 정의되므로 다음과 같이 표현이 가능하다.


따라서 MSE는 오류 분산 의 비편향 점추정이라 볼 수 있다.

 

MSTr(Mean Squares for Treatments)

만약 귀무가설이 참일 경우 아래와 같다.


MSTr는 다음과 같이 SSTr과 d.f의 비율로 정의된다.


만약 귀무가설이 참이라면 다음과 같다.

만약 가 모두 동일하다면 MSTr은 비편향되어있다.

  ○ 이에 대한 증명은 다음과 같다.







따라서



이 결과는 귀무가설의 p-값을 계산하기 위한 방법론을 구축하는데 사용되어진다.

  ○ 귀무가설이 참일때에는, F-통계량이 사용될 수 있으며, 다음과 같다.


  ○ 만약 F가 매우 크다면 귀무가설이 참이 아니라는 증거가 된다.



분산표

위에서 다룬 내용을 정리하여 표를 만들어보면 다음과 같다.

 

 요인수준평균의 쌍별비교(Pairwise comparison of the Factor level means)

귀무가설이 기각될 때, 요인수준평균(Factor level means)의 쌍별비교(Pairwise comparison)가 수행될 수 있다.

  ○ 이는 얼만큼 두 값이 차이나는지 보여준다.

  ○ k 요인수준(Factor level)에는, k(k-1)/2 쌍별 차이가 있다.


1-α 신뢰수준에서의 신뢰구간의 집합은 다음과 같다.

 


는 매개변수 k와 자유도를 가지는 스튜던트화 범위 분포(Studentized range distribution)의 상방 α 포인트인 임계점(critical point)이다.


t-구간(t-interval)과 유사점

이 신뢰구간들은 t-구간과 유사하다. 

  ○ 차이: 가 대신에 사용된다.

  ○ t-구간은 개별적인 신뢰구간을 가진다. 

  ○ k(k-1)/2 구간 모두는 그들의 개별적인 파라미터값 를 담는다.

  ○ 가 보다 크다.


만약 에 대한 신뢰구간이 0을 포함한다면, 여기에는 요인수준 에서의 평균이 차이가 있다는 증거는 없다.


 표본크기 검증(Sample Size Determination)

표본크기에 따른 특징은 다음과 같다.
  ○ ANOVA의 민감도는 k 표본 크기 에 의존한다.

  ○ 요인수준평균 귀무가설의 검정의 신뢰성은 표본크기 증가만큼 증가한다.

  ○ 표본크기가 커지면하면 쌍별 신뢰구간의 길이를 줄이는 결과를 낸다.


신뢰구간의 길이는 다음과 같이 계산된다.

  ○ 만약 각 표본크기 가 동일하지 않다면 다음과 같고, 


  ○ 만약 각 표본크기 가 동일하다면 다음과 같다, 


신뢰구간의 크기가 정해지고 각 표본의 크기가 동일하다면 반대로 표본의 크기는 다음과 같이 계산 될 수 있다.

  ○ 의 값을 평가할 필요가 있다.

  ○ 임계점 은 더큰 표본 크기를 요구하게 되는 요인 수준 k 증가분만큼 더 커진다.

 

 모델 가정(Model Assumptions)

ANOVA(analysis of variance)의 모델링 가정은 다음과 같다.

  ○ 관측치는 공통 분산을 가지는 정규분포와 같이 독립적으로 분포되어 있다.

  ○ 데이터 관측치의 독립성은 데이터 집합이 수집됬던 방법으로부터 판단될 수 있다.

  ○ 분포가 정규분포와 크게 다르지 않을때 꽤 정확한 결과를 제공한다.

  ○ 각각의 k 요인 수준에 대한 분산의 동등성은 각각의 요인수준에서의 관측치의 박스플롯(boxplot) 길이를 비교함으로써 판단될 수 있다.

 

반응형

댓글