본문 바로가기
Mathematics/확률과 통계

로그정규분포와 다변량정규분포-확률과 통계(16)

by 콩돌 2020. 7. 27.
반응형


 로그정규분포와 다변량정규분포


본 포스팅에서는 로그정규분포(Lognormal Distribution)와 다변량정규분포(Multivariate Normal Distribution)에 대해 다루도록한다.

로그정규분포에 대해서는 확률밀도함수(PDF), 누적분포함수(CDF), 예상치(평균)과 분산과 그 증명 등에 대해서도 설명하고, 다변량정규분포에 대해서는 이변량정규분포(Bivariate Normal Distribute)와 다변량정규분포로의 일반화에 대해 다루도록 한다.

 

 로그정규분포(Lognormal Distribution)


확률변수 X에 자연로그를 취할때의 분포가 정규분포를 따를 경우 로그정규분포라 한다.

  ○ 확률변수 X가 로그정규분포를 가지는 경우 아래와 같이 표현한다.

  ○ 아래 그림과 같이 로그정규분포는 대칭이 아닌 좌측이 볼록한 것을 확인할 수 있다.

 

확률밀도함수(PDF)

로그 정규분포의 확률밀도함수는 아래와 같다.

  ○ 정규분포와 크게 다르지는 않지만 확률변수 X대신에 ln(X)가 들어가는 차이만 있다.

 

누적분포함수(CDF)

로그정규분포의 누적분포함수는 다음과 같이 계산할 수 있다.

 

 

예상치(Expectation)와 분산(Variance)

로그정규분포의 예상치와 분산은 다음과 같다.



예상치의 증명

확률변수 X의 예상치는 다음과 같이 유도된다.


확률변수 의 예상치는 다음과 같이 유도된다.

 



 다변량정규분포(Multivariate Normal Distribution)

 

다변량정규분포는 정규분포를 다차원으로 확장한 분포이다.

다변량정규분포를 설명함에 앞서 이해를 돕기 위해 이변량정규분포를 먼저 설명하고 일반화된 다변량정규분포를 간략히 소개한다.

 이변량정규분포(Bivariate Normal Distribute)

그중에서 2개의 변수를 사용하는 특별한 경우에 대해 이변량정규분포(Bivariate Normal Distribute)라 한다.

  ○ 이변량정규분포에서는 확률변수 XY를 사용한다.

  ○ 이변량정규분포는 5개의 매개변수를 가진다: 

    ▷ : X의 평균, : Y의 평균, : X의 분산, : Y의 분산, : 상관계수(Correlation, )


두 확률변수 X, Y가 평균 0, 분산 1을 가지는 경우에 대해 결합확률밀도함수(Joint PDF)는 다음과 같다.


위의 경우에서 주변확률분포(Marginal probability distribution)은 다음과 같다.


확률변수의 곱 XY의 평균값은 다음과 같이 계산된다.


따라서 상관계수(Correlation)는 다음과 같이 얻어질 수 있다.



 다변량정규분포의 일반화

위에서는 두 확률변수가 평균이 0, 분산값이 1을 가진다는 특수한 경우로 가정되었다.

이를 일반화하여 다수의 확률변수를 가지며 각각의 확률변수의 평균값과 분산값을 가지는 분포에 대해 다변량정규분포로 일반화하여 표현하면 다음과 같다. 

여기서 이며, 각각의 확률변수는 이다.


그리고 확률변수 X의 결합확률밀도함수는 다음과 같이 된다.

여기서 |Σ|는 행렬 Σ의 행렬식(Determinant)이다.

 

반응형

댓글