본문 바로가기
Mathematics/확률과 통계

예측값과 예측구간, 분산표를 활용한 분석, 결정계수-확률과통계(30)

by 콩돌 2020. 8. 21.
반응형


 미래응답값과 예상 구간, 분산표를 활용한 분석


본 포스팅은 미래응답값에 대한 예상구간과 분산표를 활용한 분석 그리고 결정계수 R^2에 대한 설명하도록한다.


 미래응답값(Future Response Value)에 대한 예상 구간(Prediction Interval)


 추론 절차

평균값보다 미래 응답의 실제값을 추론하는 것이 더 중요하다.

입력 에 대해 y를 이의 응답으로 두자, 그렇다면, 


입력 의 응답 y는 이전 응답에 대해 독립적이므로 다음과 같다.


따라서 다음과 같다.


미래 응답값에 대한 예상 구간

1-α 신뢰수준의 양방향 예상구간 (원인 변수의 특정값 에 대한 종속변수의 미래 값)은 다음과 같다.


단뱡향 예상구간의 다음과 같다.


 분산표를 활용한 분석

 

 Sum of Squares Decomposition

SST는 다음과 같이 SSR과 SSE의 합으로 구성된다.

  ○ SST: Total sum of squares

  ○ SSR: Sum of squares for regression

  ○ SSE: Sum of squares for error

  ○ 이 개념을 회귀선에 대입할 수 있으며, 관련 개념을 이해하기 쉽게 보여주는 것이 아래 그림이다.



  ○ 그리고 다음과 같이 분산표를 작성할 수 있다.


귀무가설 검정

분산표를 이용한 분산의 예를 들어보기 위해 다음과 같이 귀무가설을 고려해보자.


위에서 알 수 있다시피 는 다음과 같이 추정될 수 있다.


그리고 SSR은 다음과 같이 계산된다.


위에서 볼 수 있다싶이 분산표의 데이터를 사용하여 회귀선을 이용한 미래응답값의 분석을 수행할 수 있다는 것을 확인할 수 있다.


 결정계수

 

위의 분산표에서 구한 SST, SSR, SSE등을 이용하면 결정계수 을 구할 수 있다.

이를 이용한다면 회귀선의 타당성을 어느정도 확인할 수 있는 지표가 된다.

 

 결정계수

먼저 결정계수의 정의에 대해 먼저 설명하도록 한다. 

  ○ 회귀선 의해 설명된 총 변동성의 비율은 다음과 같으며, 결정계수라 불리며 다음과 같이 계산된다.

  ○ 결정계수은 0과 1사이의 값을 가진다.

  ○ 결정계수값에 크기에 따라 의미하는 바는 다음과 같다.

    ▷ 이 작아질 수록 변동성이 커지며 데이터들이 회귀선에서 발산하며, 데이터에 상관성이 낮음을 의미한다. 

    ▷ 이 커질 수록 변동성이 작아지며 데이터들이 회귀선에 수렴하며, 데이터에 상관성이 높음을 의미한다.

    ▷ 아래 그림은 그래프는 의 크기에 따른 데이터의 상관성을 보여준다.



 SSR, SSE, SST의 정의에 대한 복습

SSR의 정의

SSR(The regression sum of squares): 회귀선에 의해 설명된 변동성

SSE의 정의

 SSE(The error sum of squares): 회귀선에 대한 변동성

SST의 정의

종속 변수의 총 변동성, SST(The total sum of squares)는 다음과 같다.


SST는 SSR와 SSE로 분할 될 수 있다.


SST=SSE+SSR에 대한 추가설명

여기서 다음과 같은 사실을 인지하자.


최소좌승추정은 다음과 같이 주어진다.


그리고 다음과 같다.


그리고 


따라서


반응형

댓글