본문 바로가기
Mathematics/확률과 통계

결합확률, 공분산, 상관계수-확률과 통계(5)

by 콩돌 2020. 7. 12.
반응형


 결합확률, 공분산, 상관계수


본 포스팅에서는 결합확률(Joint Probability)과 공분산(Covariance), 상관계수(Correlation)에 대한 내용을 다루도록 한다.

그리고 결합확률과 관련된 내용인 주변확률분포(Marginal Probability Distribution)와 조건부확률분포(Conditional Probability Distribution)에 대해서도 다뤄보도록 한다.


 결합확률(Joint Probability)

 

 결합확률(Joint Probability)

결합확률은 두 가지 사건이 동시에 일어날 확률을 의미한다. 

  ○ 예를들어 A라는 사건과 B라는 사건이 동시에 일어날 확률을 의미하므로 조건부 확률과는 다른 개념이다.

따라서 다음과 같이 2차원 형태로 확률을 표시할 수 있다.

 

이산형태

확률

누적확률함수


연속함수형태 

확률

누적확률함수


 

※ 참고사항

  만약 두 확률분포가 독립적(independent)이라면 다음과 같이 두 확률의 곱으로 결합확률을 표현할 수 있으므로 참고하자.

  이산형태


  연속함수형태 

 

※ 조건부확률과 결합확률의 차이점

  결합확률 분포에 대해서는 후술하겠지만 조건부 확률과 결합확률에 대해 간략히 차이점을 설명하면 다음과 같다.

  조건부 확률은 특정 사전 사건이 일어났을 때 사후 사건이 일어나는 확률을 의미한다.

    ○ 두 사건의 교집합에 사전사건의 확률을 나눈 값으로 정리된다.


  결합확률은 두 사건이 동시 동시에 일어날 확률을 의미한다.

    ○ 다음과 같이 두 사건이 독립적일 경우 확률의 곱으로 표현된다.

 


 주변확률분포(Marginal Probability Distribution)

주변확률분포는 결합확률분포에서 어느 한 확률변수의 값에 대해 더해지거나 적분되어 얻어지는 분포이다.

  ○ 예를들면 i번째 x값(이산형태) 혹은 특정 x값(연속함수형태)에서 나타나는 모든 y값을 더하거나 적분하여 얻은 확률분포이다. 


주변확률분포의 표현은 다음과 같다.


이산형태


연속함수형태 



 조건부확률분포(Conditional Probability Distribution)

조건부확률분포는 결합확률분포에서 특정 확률변수 Y가 일어났을 때 특정 확률변수 X가 일어날 확률을 나타낸다. 

  ○ 결합확률과는 차이가 있으므로 주의하자.


결합확률에서 조건부확률분포는 다음과 같이 표현할 수 있다.


이산형태


연속함수형태 



 공분산과 상관계수

 

2가지 사건이 동시에 발생할 확률을 표현하는 결합확률를 분석하기 위해 공분산과 상관계수라는 개념이 다음과 같이 존재한다. 


 공분산(Covariance)

두 확률변수가 서로 어느정도 연관되어 있는지 파악할 수 있게 해주는 분산이다.

공분산은 다음과 같이 계산된다.


공분산 공식 증명

다음은 위의 공분산 공식이 어떻게 유도되는지 보여주는 과정이다.


공반산의 특징

  ○ 공분산은 양 혹은 음의 숫자를 가질 수 있다.

  ○ 독립적인 확률변수들은 공분산 값이 0이다.

    ▷ 예를들어 X와 Y가 서로 독립이라면 공분산은 0이다.

    ▷ 하지만 X와 Y가 연관성이 없는 경우 즉 Cov(X, Y)가 0이더라도, X와 Y는 독립적이 아닐 수 있다.


아래 그림은 공분산 값에 따라 연관성이 어떻게 변화하는지 보여준다.

  ○ 공분산이 양수이면 비례관계의 연관성을 보여준다.

  ○ 공분산이 음수이면 반비례관계의 연관성을 보여준다.

  ○ 공분산이 0이면 연관성이 없다.


 



 상관계수(Correlation)

상관계수는 확률변수 X와 Y의 공분산을 표준화시킨것이다.

확률변수 X와 Y의 상관계수는 다음과 같이 계산될 수 있다.

상관계수의 특징

상관계수는 -1과 1사이의 값을 가진다.

  ○ -1이면 반비례관계이다.

  ○ 1이면 비례관계이다.

  ○ 0이면 연관성이 없다.

 

반응형

댓글