본문 바로가기
Mathematics/확률과 통계

체비쇼프 부등식과 분위수-확률과 통계(4)

by 콩돌 2020. 7. 11.
반응형


 체비쇼프 부등식과 분위수


본 포스팅에서는 체비쇼프 부등식(Chebyshev's Inequality)과 확률변수의 분위수(Quantile) 및 사분위수(Quartile)에 대해 다루도록한다.



 체비쇼프 부등식(Chebyshev's Inequality)

체비쇼프 부등식의 이름은 러시아의 수학자 파프누티 체비쇼프에서 따왔다. 

만약 확률변수가 평균치 μ를 가지고 분산 σ²을 가진다면 그때에 다음과 같은 관계가 성립한다.

이 식은 주어진 확률분포의 평균값으로부터 의 범위 내에 있을 확률이 이상 차지한다는 의미를 가지는 부등식이다. 

  ○ 반대로 생각하면 평균값으로부터 의 범위 밖에 있을 확률이 이하라는 의미와 같다.


이 부등식은 일반적으로 어떤 확률분포에도 성립한다는 특징을 가진다. 
또한 평균값이 특정 구간에 포함될 확률에 대한 정보를 제공하기도 한다.


 체비쇼프 부등식의 증명

체비쇼프의 부등식은 다음과 같이 증명될 수 있다.

 

 확률변수의 분위수(Quantile)


분위수는 자료의 크기 순서에 따른 위치값을 나타낸다. 

기본적으로 누적밀도함수의 p값을 가지는 확률변수 X는 다음과 같이 표현할 수 있다.

여기서 위의 결과를 확률변수 X의 제 p 분위수라고 표현이 가능하다.

이는 확률변수 X의 이하 값들이 발생할 확률이 p보다 작음의미한다.


분위수는 크게보면 백분위수 사분위수가 존재한다.

  ○ 백분위수(Percentile)는 크기 순서에 따라 나열한 자료를 100등분한 분위수이다.

  ○ 사분위수(Quartile)는 크기 순서에 따라 나열한 자료를 4등분한 분위수이다.


 백분위수(Percentile)

백분위수는 앞서 설명했듯이 크기 순서로 나열한 자료를 100등분한 분위수이다.

각 백분위수를 표현할때에는 XX 백분위수라한다.

  ○ 예) 5 백분위수, 95 백분위수, 99 백분위수 등.

  ○ 50% 분위수는 중앙값(Median)이라 한다.


 사분위수(Quartile)

사분위수는 크기 순서에 따라 나열한 자료를 4등분한 분위수이다.

다음 그림은 사분위수를 설명하는 그림이다.


하한 사분위수(Q1, Lower Quartile)

  ○ 확률 분포의 25 백분위수를 의미하며, 제 1사분위수(Q1)라고 하기도 한다.


중앙값(Q2, Median)

  ○ 확률 분포의 50 백분위수를 의미하며 제 2사분위수(Q2) 및 중앙값(Median)이라고 표현하기도 한다. 

 


상한 사분위수(Q3, Upper Quartile)

  ○ 확률 분포의 75 백분위수를 의미하며, 제 3사분위수(Q3)라고 하기도 한다.


사분위 범위(Interquartile range)

  ○ 하한사분위수와 상한사분위수 사이의 거리(Q3-Q1)를 의미한다.

 

반응형

댓글