체비쇼프 부등식과 분위수 |
본 포스팅에서는 체비쇼프 부등식(Chebyshev's Inequality)과 확률변수의 분위수(Quantile) 및 사분위수(Quartile)에 대해 다루도록한다.
체비쇼프 부등식(Chebyshev's Inequality) |
체비쇼프 부등식의 이름은 러시아의 수학자 파프누티 체비쇼프에서 따왔다.
만약 확률변수가 평균치 μ를 가지고 분산 σ²을 가진다면 그때에 다음과 같은 관계가 성립한다.
이 식은 주어진 확률분포의 평균값으로부터 의 범위 내에 있을 확률이
이상 차지한다는 의미를 가지는 부등식이다.
○ 반대로 생각하면 평균값으로부터 의 범위 밖에 있을 확률이
이하라는 의미와 같다.
체비쇼프 부등식의 증명 |
체비쇼프의 부등식은 다음과 같이 증명될 수 있다.
확률변수의 분위수(Quantile) |
분위수는 자료의 크기 순서에 따른 위치값을 나타낸다.
기본적으로 누적밀도함수의 p값을 가지는 확률변수 X는 다음과 같이 표현할 수 있다.
여기서 위의 결과를 확률변수 X의 제 p 분위수라고 표현이 가능하다.
이는 확률변수 X의 이하 값들이 발생할 확률이 p보다 작음을 의미한다.
분위수는 크게보면 백분위수 사분위수가 존재한다.
○ 백분위수(Percentile)는 크기 순서에 따라 나열한 자료를 100등분한 분위수이다.
○ 사분위수(Quartile)는 크기 순서에 따라 나열한 자료를 4등분한 분위수이다.
백분위수(Percentile) |
백분위수는 앞서 설명했듯이 크기 순서로 나열한 자료를 100등분한 분위수이다.
각 백분위수를 표현할때에는 XX 백분위수라한다.
○ 예) 5 백분위수, 95 백분위수, 99 백분위수 등.
○ 50% 분위수는 중앙값(Median)이라 한다.
사분위수(Quartile) |
사분위수는 크기 순서에 따라 나열한 자료를 4등분한 분위수이다.
다음 그림은 사분위수를 설명하는 그림이다.
하한 사분위수(Q1, Lower Quartile)
○ 확률 분포의 25 백분위수를 의미하며, 제 1사분위수(Q1)라고 하기도 한다.
중앙값(Q2, Median)
○ 확률 분포의 50 백분위수를 의미하며 제 2사분위수(Q2) 및 중앙값(Median)이라고 표현하기도 한다.
상한 사분위수(Q3, Upper Quartile)
○ 확률 분포의 75 백분위수를 의미하며, 제 3사분위수(Q3)라고 하기도 한다.
사분위 범위(Interquartile range)
○ 하한사분위수와 상한사분위수 사이의 거리(Q3-Q1)를 의미한다.
'Mathematics > 확률과 통계' 카테고리의 다른 글
확률변수의 선형함수와 선형조합-확률과 통계(6) (0) | 2020.07.13 |
---|---|
결합확률, 공분산, 상관계수-확률과 통계(5) (0) | 2020.07.12 |
기댓값, 중앙값, 분산, 표준편차, 대칭확률변수-확률과 통계(3) (0) | 2020.07.09 |
조건부확률, 사후확률, 베이즈정리-확률과 통계(2) (0) | 2020.07.08 |
사건의 여집합, 교집합, 합집합-확률과 통계(1) (0) | 2020.07.06 |
댓글