미래응답값과 예상 구간, 분산표를 활용한 분석 |
본 포스팅은 미래응답값에 대한 예상구간과 분산표를 활용한 분석 그리고 결정계수 R^2에 대한 설명하도록한다.
미래응답값(Future Response Value)에 대한 예상 구간(Prediction Interval) |
추론 절차 |
평균값보다 미래 응답의 실제값을 추론하는 것이 더 중요하다.
입력 에 대해 y를 이의 응답으로 두자, 그렇다면,
입력 의 응답 y는 이전 응답에 대해 독립적이므로 다음과 같다.
따라서 다음과 같다.
미래 응답값에 대한 예상 구간
1-α 신뢰수준의 양방향 예상구간 (원인 변수의 특정값
에 대한 종속변수의 미래 값)은 다음과 같다.
단뱡향 예상구간의 다음과 같다.
분산표를 활용한 분석 |
Sum of Squares Decomposition |
SST는 다음과 같이 SSR과 SSE의 합으로 구성된다.
○ SST: Total sum of squares
○ SSR: Sum of squares for regression
○ SSE: Sum of squares for error
○ 이 개념을 회귀선에 대입할 수 있으며, 관련 개념을 이해하기 쉽게 보여주는 것이 아래 그림이다.
○ 그리고 다음과 같이 분산표를 작성할 수 있다.
귀무가설 검정
분산표를 이용한 분산의 예를 들어보기 위해 다음과 같이 귀무가설을 고려해보자.
위에서 알 수 있다시피 는 다음과 같이 추정될 수 있다.
그리고 SSR은 다음과 같이 계산된다.
위에서 볼 수 있다싶이 분산표의 데이터를 사용하여 회귀선을 이용한 미래응답값의 분석을 수행할 수 있다는 것을 확인할 수 있다.
결정계수 |
위의 분산표에서 구한 SST, SSR, SSE등을 이용하면 결정계수 을 구할 수 있다.
이를 이용한다면 회귀선의 타당성을 어느정도 확인할 수 있는 지표가 된다.
결정계수 |
먼저 결정계수의 정의에 대해 먼저 설명하도록 한다.
○ 회귀선 의해 설명된 총 변동성의 비율은 다음과 같으며, 결정계수라 불리며 다음과 같이 계산된다.
○ 결정계수은 0과 1사이의 값을 가진다.
○ 결정계수값에 크기에 따라 의미하는 바는 다음과 같다.
▷ 이 작아질 수록 변동성이 커지며 데이터들이 회귀선에서 발산하며, 데이터에 상관성이 낮음을 의미한다.
▷ 이 커질 수록 변동성이 작아지며 데이터들이 회귀선에 수렴하며, 데이터에 상관성이 높음을 의미한다.
▷ 아래 그림은 그래프는 의 크기에 따른 데이터의 상관성을 보여준다.
SSR, SSE, SST의 정의에 대한 복습 |
SSR의 정의
SSR(The regression sum of squares): 회귀선에 의해 설명된 변동성
SSE의 정의
SSE(The error sum of squares): 회귀선에 대한 변동성
SST의 정의
종속 변수의 총 변동성, SST(The total sum of squares)는 다음과 같다.
SST는 SSR와 SSE로 분할 될 수 있다.
SST=SSE+SSR에 대한 추가설명
여기서 다음과 같은 사실을 인지하자.
최소좌승추정은 다음과 같이 주어진다.
그리고 다음과 같다.
그리고
따라서
'Mathematics > 확률과 통계' 카테고리의 다른 글
잔차분석과 상관분석-확률과통계(31) (0) | 2020.08.23 |
---|---|
기울기값과 회귀선에 대한 추론-확률과통계(29) (0) | 2020.08.20 |
단순선형회귀모델과 피팅-확률과통계(28) (2) | 2020.08.19 |
One-Way ANOVA(분산분석, Analysis Of Variance)-확률과통계(27) (0) | 2020.08.17 |
이산데이터 분석(분할표)-확률과통계(26) (0) | 2020.08.14 |
댓글