단순선형회귀모델과 피팅 |
본 포스팅에서는 단순선형 회귀모델에 대한 설명과 회귀선을 피팅하는 법에 대해 다루도록한다.
단순선형 회귀모델 (The simple linear regression model) |
본 섹션에서는 선형회귀모델을 모델링 하는법에 대해 다루도록한다.
모델 정의 및 가정 |
먼저, 종속변수(dependent variable)
의 관측치는 원인변수(explanatory variable)의 선형함수
와 함께 오차항
로 구성되어 있다고 보며, 해당 식은 아래와 같다.
○ 매개변수 는 회귀식의 절편이며,
는 회귀식의 기울기다.
▷ 이는 값 는 아래와 같은 독립적인 확률변수로부터의 관측치임을 나타낸다.
○ 위의 내용을 이해하기 쉽게 표현한게 아래 그래프이다.
회귀식의 기울기 은 종속변수 y의 예상치들이 원인변수 x에 어떤식으로(비례, 반비례 등) 의존적인지 보여주는 매개변수이다.
오차분산 |
일반적으로 알려지지 않은 매개변수인 오차분산(Error variance)는 데이터 집합으로부터 예측될 수 있다.
아래 그림은 데이터 값 가
가 더 작을수록 회귀선에 더 가까이 근접하여 있는 것을 보여준다.
단순선형회귀모델을 사용할 수 없는 예 |
아래 그림에 보여지는 데이터 집합은 2차함수(혹은 최소한 비선형적인 함수)관계를 나타낸다.
그리고 이는 직선으로는 이 데이터 집합을 피팅하기에는 어렵다.
※ 단순선형회귀모델(Simple Linear Regression Model) 내용의 정리
단순선형회귀모델은 다음과 같이 표현된다.
![]()
이는 쌍별 데이터 관측치의 데이터 집합을 통해 직선으로 피팅한다.
![]()
오차항
은 일반적으로 오차분산
(error variance)에 대해
분포를 갖는 독립적인 관측치를 가진다.
매개변수
는 회귀선의 절편,
는 회귀선의 기울기이며, 알려지지 않은 매개변수인 오차분산
(Error variance)는 데이터 집합으로부터 예측될 수 있다.
회귀선의 피팅(Fitting the Regression Line) |
기울기와 절편의 계산 |
피팅된 회귀식은 다음과 같이 구해질 수 있다.
그리고 기울기와 절편은 다음과 같이 계산할 수 있다.
위 식의 증명 과정은 아래의 매개변수 추정 섹션에서 다루도록 한다.
매개변수의 추정 |
회귀선
는 데이터 포인트
에 가장 가까운 선을 찾음으로써 피팅된다.
아래 그림은 피팅된 선이 세로방향 편차의 자승합 이 최소값을 가지는 선이 선택된 것을 확인할 수 있다.
그리고 이는 최소자승법(least squares fit)이라 불린다.
최소자승합 Q는 다음과 같이 계산된다.
정규분포를 따르는 오차항을 사용하여, ,
가 최대우도추정으로 추측된 값이 된다.
그 이유는 오차항이 정규분포를 따를 때 오차항의 결합밀도(Joint density)가 다음과 같이 되며,
아래의 최소자승합이 최소가 될때 우도는 최대값을 가진다.
Q가 최소 값이 나오기 위해서는 위의 두 편 미분값은 0이 되어야 하므로, 아래 식이 0이 되어야 한다.
따라서 위식을 정리하면 아래와 같은 정규방정식이 도출된다.
위의 정규방정식으로부터 아래의 방정식들을 얻을 수 있다.
위의 방정식을 다시한번 정리하면 아래와 같이 ,
값들을 계산할 수 있다.
그리고 위 식에서 분산값 ,
는 다음과 같이 계산된다.
명시된 값 x*에 대해 이 방정식은 종속변수 y에 대해 피팅된 값을 제공한다.
오차분산(error variance)은 관측치
와 피팅값
간의 편차를 고려함으로써 추정될 수 있다.
특히 오차 SSE에 대한 자승합은 이 편차의 자승합으로 정의된다.
오차편차 추정은 다음과 같다.
그리고 이는 의 비편향된 추정자(unbiased estimator)이며, 다음과 같이 설명될 수 있다.
먼저,
따라서
게다가
로부터
※ 회귀식의 피팅 내용의 정리
단순선형회귀모델은 다음과 같이 표현된다.
![]()
여기서 아래 식은 최소자승합이라 불리며 최소값이 되는 값이 가장 오차가 적은 회귀식이 된다.
![]()
최소자승합이 가장 작을 때의
,
값을
,
라 두며 다음과 같이 계산이 가능하다.
![]()
'Mathematics > 확률과 통계' 카테고리의 다른 글
예측값과 예측구간, 분산표를 활용한 분석, 결정계수-확률과통계(30) (0) | 2020.08.21 |
---|---|
기울기값과 회귀선에 대한 추론-확률과통계(29) (0) | 2020.08.20 |
One-Way ANOVA(분산분석, Analysis Of Variance)-확률과통계(27) (0) | 2020.08.17 |
이산데이터 분석(분할표)-확률과통계(26) (0) | 2020.08.14 |
이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25) (0) | 2020.08.13 |
댓글