본문 바로가기
Mathematics/확률과 통계

잔차분석과 상관분석-확률과통계(31)

by 콩돌 2020. 8. 23.
반응형


 잔차분석과 상관분석


본 포스팅에서는 회귀선에 대한 잔차분석과 상관분석에 대해 다루도록 한다.


 잔차 분석(Residual Analysis)

 

 잔차분석방법론(Residual Analysis Methods)

잔차는 다음과 같이 정의된다.


잔차는 종속변수 의 관측치와 피팅된 데이터 의 차이이다.


잔차의 특성은 다음과 같다.


잔차분석은 다음과 같은 상황에서 사용될 수 있다.

  ○ 이상치(Outlier)인 데이터 포인트를 확인

  ○ 피팅 모델이 적절한지 평가

  ○ 오차 분산이 상수인지 확인

  ○ 오차항들이 정규분포인지 평가


 잔차분석의 결과 예제

적절한 잔차 산포도

아래 그림은 적절한 잔차의 산포도를 보여준다.

  ○ 여기에는 회귀분석을 사용한 분석에 대한 문제가 없다.

  ○ 잔차 플롯의 패턴 또는 절대 값이 큰 잔차는 회귀 모형에 문제가 있음을 나타낸다.


이상치의 발생 

만약 데이터 포인트 가 피팅모델에 의해 잘 예측되지 않는 것 처럼 보인다면, 해당 데이터 포인트는 이상치(Outlier)이다.

아래 그림에서 볼 수 있는 것 처럼 이상치의 잔차는 큰 절대값을 가진다. 

  ※ 아래 그래프에서 대신 가 사용됬다는 것을 참고하자.


 

선형회귀모델이 적합하지 않은 예제

만약 잔차플롯이 그룹화되어 양 혹은 음의 값을 가지는 잔차를 가진다면 선형모델은 적합하지 않다.

  ○ 이런 경우 비선형 모델을 필요로 한다.


잔차가 경향성을 보이는 경우

만약 잔차플롯이 깔대기 모양을 보여준다면 잔차의 크기는 원인변수(explanatory variable) x에 종속되어있다.

  ○ 이 경우 오차분산은 고정된 상수값이 될 수 없다.


오차항의 정규분포

잔차의 정규확률분포 그래프는 오차항이 정규적으로 분포했는지 아닌지 확인하는 역할을 한다.

i번째 가장 작은 정규 스코어(Normal Score)는 다음과 같다.


정규확률분포에 근사적으로 놓여있는 오차항이 정규적으로 분포하였다면 다음 그림과 같이 정규스코어그래프는 다음과 같이 선형적으로 분포한다. 그리고 이는 오차항에 대해 정규분포로 근사하는 것이 합리적임을 보여준다. 

아래 그림들에 오차항의 분포가 정규적이지 않는 경우를 보여준다.

 


아래 함수는 표준정규분위수함수(Standard Normal Quantile Function)이다.


 

 상관분석(Correlation Analysis)

 

 표본 상관분석(Sample Correlation Coefficient)

짝을 이룬 데이터 관측치 가 존재할 때 표본상관계수 r은 다음과 같다.

  ○ 표본상관계수 r은 두 변수간의 선형 연관성의 정도를 측정할 수 있다.

  ○ 이는 두 확률변수 X Y간의 상관성 에 관련된 추정으로 여겨진다.


상관성 는 다음과 같다.


과 표본 상관계수간의 관계

먼저 표본상관계수과 는 같다.


아래 과정은 과 표본 상관계수가 같다는 것을 보여주는 증명과정이다.


는 다음과 같이 계산된다.


추가로 


그리고


상관관계를 파악하기위한 귀무가설 검정

게다가 라는 사실로부터 일때 다음과 같은 관계를 얻을 수 있다.



이는 다음을 암시한다.


XY 확률변수는 이변량 정규분포를 가진다는 가정 아래, 아래의 상관성과 관련된 귀무가설 검정은 t-통계를 비교함으로써 수행될 수 있다.

  ○ 아래 귀무가설이 기각된다면 상관성이 있음을 암시한다.


여기서 t-분포는 n-2의 자유도를 가진다.

회귀프레임 워크에서 이 검정은 검정과 동일하다.



반응형

댓글