본문 바로가기
Mathematics/확률과 통계

단순선형회귀모델과 피팅-확률과통계(28)

by 콩돌 2020. 8. 19.
반응형

 

 

 단순선형회귀모델과 피팅

 

본 포스팅에서는 단순선형 회귀모델에 대한 설명과 회귀선을 피팅하는 법에 대해 다루도록한다.

 

 단순선형 회귀모델 (The simple linear regression model)

 

본 섹션에서는 선형회귀모델을 모델링 하는법에 대해 다루도록한다.

 

 

 모델 정의 및 가정

먼저, 종속변수(dependent variable) 의 관측치는 원인변수(explanatory variable)의 선형함수와 함께 오차항로 구성되어 있다고 보며, 해당 식은 아래와 같다.

  ○ 매개변수 는 회귀식의 절편이며, 는 회귀식의 기울기다.

  ○ 는 오차항이며, 이 오차창의 분포는 를 따른다. 
    ▷ 은 일반적으로 오차분산(error variance)에 대해 분포를 갖는 독립적인 관측치를 가진다.

    ▷ 이는 값 는 아래와 같은 독립적인 확률변수로부터의 관측치임을 나타낸다.

  ○ 위의 내용을 이해하기 쉽게 표현한게 아래 그래프이다.

 

회귀식의 기울기 은 종속변수 y의 예상치들이 원인변수 x에 어떤식으로(비례, 반비례 등) 의존적인지 보여주는 매개변수이다.

 

 오차분산(Error variance)

일반적으로 알려지지 않은 매개변수인 오차분산(Error variance)는 데이터 집합으로부터 예측될 수 있다.

아래 그림은 데이터 값 가 가 더 작을수록 회귀선에 더 가까이 근접하여 있는 것을 보여준다.

 

 단순선형회귀모델을 사용할 수 없는 예

아래 그림에 보여지는 데이터 집합은 2차함수(혹은 최소한 비선형적인 함수)관계를 나타낸다. 

그리고 이는 직선으로는 이 데이터 집합을 피팅하기에는 어렵다.

 

※ 단순선형회귀모델(Simple Linear Regression Model) 내용의 정리

단순선형회귀모델은 다음과 같이 표현된다.

이는 쌍별 데이터 관측치의 데이터 집합을 통해 직선으로 피팅한다. 

오차항 은 일반적으로 오차분산 (error variance)에 대해 분포를 갖는 독립적인 관측치를 가진다.

매개변수 는 회귀선의 절편, 는 회귀선의 기울기이며, 알려지지 않은 매개변수인 오차분산 (Error variance)는 데이터 집합으로부터 예측될 수 있다. 

  

 
 회귀선의 피팅(Fitting the Regression Line)

 

 

 기울기와 절편의 계산

피팅된 회귀식은 다음과 같이 구해질 수 있다.

 

그리고 기울기와 절편은 다음과 같이 계산할 수 있다.

 

위 식의 증명 과정은 아래의 매개변수 추정 섹션에서 다루도록 한다.

 

 매개변수의 추정

회귀선 는 데이터 포인트 에 가장 가까운 선을 찾음으로써 피팅된다.

아래 그림은 피팅된 선이 세로방향 편차의 자승합 이 최소값을 가지는 선이 선택된 것을 확인할 수 있다. 

그리고 이는 최소자승법(least squares fit)이라 불린다. 

 

최소자승합 Q는 다음과 같이 계산된다.

 

정규분포를 따르는 오차항을 사용하여, ,가 최대우도추정으로 추측된 값이 된다.

그 이유는 오차항이 정규분포를 따를 때 오차항의 결합밀도(Joint density)가 다음과 같이 되며, 

 

 

아래의 최소자승합이 최소가 될때 우도는 최대값을 가진다.

 

Q가 최소 값이 나오기 위해서는 위의 두 편 미분값은 0이 되어야 하므로, 아래 식이 0이 되어야 한다.

 

따라서 위식을 정리하면 아래와 같은 정규방정식이 도출된다.

 

위의 정규방정식으로부터 아래의 방정식들을 얻을 수 있다.

 

위의 방정식을 다시한번 정리하면 아래와 같이 ,값들을 계산할 수 있다.

 

 

 

그리고 위 식에서 분산값 ,는 다음과 같이 계산된다.

 

명시된 값 x*에 대해 이 방정식은 종속변수 y에 대해 피팅된 값을 제공한다.

 

오차분산(error variance)은 관측치 와 피팅값간의 편차를 고려함으로써 추정될 수 있다.

특히 오차 SSE에 대한 자승합은 이 편차의 자승합으로 정의된다.

 

오차편차 추정은 다음과 같다.

 

그리고 이는 의 비편향된 추정자(unbiased estimator)이며, 다음과 같이 설명될 수 있다.

 

먼저, 

 

따라서 

 

 

 

 

게다가 

로부터

 

※ 회귀식의 피팅 내용의 정리

단순선형회귀모델은 다음과 같이 표현된다.

 

여기서 아래 식은 최소자승합이라 불리며 최소값이 되는 값이 가장 오차가 적은 회귀식이 된다.

 

최소자승합이 가장 작을 때의, 값을,라 두며 다음과 같이 계산이 가능하다.

 

 

 

반응형

댓글