본문 바로가기
Mathematics/확률과 통계

푸아송분포, 다항분포-확률과 통계(9)

by 콩돌 2020. 7. 16.
반응형


 푸아송분포, 다항분포


본 포스팅에서는 푸아송분포(Poisson Distribution)와 다항분포(Multinomial Distribution)에 대해서 다루도록 한다.

추가적으로 푸아송분포의 예상치(평균)와 분산의 증명에 대해서도 다뤄보도록 한다.


 푸아송 분포(Poisson Distribution) 


푸아송 분포는 특정 경계(시간, 공간 등) 내에서 일어나는 사건의 수의 분포를 나타낸다.

다음은 푸아송 분포가 사용되는 예이다.

  ○ 특정 구역에서 탐지된 물건의 수

  ○ 물질에서 방출되는 방사성입자의 수

  ○ 주어진 시간에 전화교환원이 받은 전화의 수


파라미터 λ를 사용하는 푸아송의 확률변수라고 불려지는 확률변수 X는 다음과 같이 표현이 가능하다.

푸아송 분포의 평균과 분산은 모두 λ로 동일하다.


확률질량함수(PMF)

푸아송 분포는 단위 시간, 거리 혹은 체적당 사건이 일어나는 횟수를 모델링 하는데 유용하다.

위의 확률질량함수에서 x는 발생한 사건의 수, λ는 기대값과 분산을 의미한다.


예상치(Expectation)와 분산(Variance)


증명





푸아송분포의 가정

푸아송분포는 다음과 같은 가정을 갖는다.

  ○ 평균과 분산은 모두 λ로 동일하다.

  ○ 특정 사건 발생이 후에 있을 사건 발생에 영향을 미치지 않는다.

    ▷ 즉, 각 사건 발생은 독립적이다.

  ○ 평균사건발생률은 어떠한 사건발생과도 독립이다.

    ▷ 평균사건발생률은 상수로 가정된다.(실제로는 그렇지 않을 수도 있다.)

    ▷ 특정 구간에서의 사건 발생 확률은 그 구간의 크기에 비례한다.

  ○ 두 개 이상의 사건이 동시에 발생할 확률은 0에 가깝다.


 푸아송 분포를 활용한 이항확률변수 근사

푸아송 확률변수는 파라미터 (n, p)를 사용하는 이항확률변수를 근사하는데 사용되기도한다.

이때 n은 충분히 크고 p는 충분히 작아야한다.


먼저 (n,p) 파라미터와 λ=np인 이항확률변수를 X라고 둔다.


만약 n이 충분히 크고 p가 충분히 작다면 


따라서

 


 다항분포(Multinomial Distribution)


다항분포를 설명하기 위해, n개의 독립 시행의 순서열을 고려한다.

이때, 각각의 시행은 결과 k 및 확률 p를 가지며 각 결과 k는 특정 확률을 가지며, 이 확률들의 합은 1이다. 

각각의 결과 발생 수의 확률변수 X1,...,Xk다항분포라 불려진다.

  ○ 다항분포는 이항분포의 일반화된 형태이다.

    ▷ 예를들어 k가 2고 n이 1이면 베르누이 분포가 되며, n이 다수이면 이항분포가된다.


확률질량함수(PMF)

결합확률질량함수(Joint Probability Mass Function)는 다음과 같다.

이때, 는 0이상의 정수이며, 이다.



예상치(Expectation)와 분산(Variance)





반응형

댓글