확률통계 기초용어 |
본 포스팅에서는 다음과 같은 확률 통계의 기초 용어에 대한 설명을 다룰 것이다.
○ 확률실험, 표본공간, 사건, 확률변수, 확률질량함수, 확률밀도함수, 누적분포함수, 확률, 확률의 공리
○ 데이터, 통계적추론, 모집단, 표본, 무작위표본
○ 매개변수, 통계자료, 추정/평가, 점추정
확률 기초용어 |
확률과 통계 이론은 불확실성을 다루는 수학 분야 중 하나이다.
확률이론은 데이터로부터 통계학적 추론을 위한 기초를 제공한다.
확률 실험(Experiment)
○ 하나의 행위가 하나 이상의 결과를 도출하는 것에 대한 과정 혹은 절차를 나타낸다.
○ 예) 동전 던지기, 주사위 던지기 등
표본공간(Sample Space)
○ 확률실험에서 발생할 수 있는 모든 결과로 구성된 집합(set)이다.
○ 표본공간은 다음과 같이 표현할 수 있다.
사건(event)
○ 표본 공간에서의 일부분이다. 즉, 표본 공간의 부분집합(subset)이다.
○ 특정 결과들을 하나의 카테고리로 모아놓은 것이다.
○ 사건의 확률은 사건 안에 있는 확률들의 합으로 구성된다.
○ 사건 내의 하나의 결과가 일어난다면 그 사건은 일어나는 것으로 간주된다.
확률 변수(Random variable)
○ 특정 확률실험의 각각의 결과에 대한 수치적인 값을 나타낸다.
확률질량함수(PMF, Probability Mass Function)
○ 특정 확률변수 값에 대해 확률을 나타내는 함수를 나타낸다.
○ 보통 유한한 개수의 결과값을 가지고 각각의 결과값에 확률에 대한 값이 존재한다.
▷ 연속적인 함수와는 다르므로 주의가 필요하다.
○ 다음과 같이 표현을 많이하며, 각 확률값은 0~1의 값을 가지고 그 확률값들의 합은 1이다.
확률밀도함수(PDF, Probability Density Function)
○ 연속적인 확률변수의 확률을 표현한 함수를 나타낸다.
○ 확률 질량함수와는 다르게 연속적으로 표현이 가능하다.
○ 함수의 종류에 따라 범위가 무한대까지 포함하는 경우가 존재한다.
누적분포함수(CDF, Cumulative Distribution Function)
○ 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수를 나타낸다.
○ 확률 질량함수의 누적분포는 다음과 같이 특정 값 이하의 결과값들을 합하여 구한다.
○ 확률밀도함수의 누적분포함수는 다음과 같이 적분을 통해 구한다.
○ 누적분포함수가 확률밀도 함수를 적분한 함수이므로 반대로 누적분포함수에서 미분을 한다면 확률밀도함수를 구할 수 있다.
○ 특정 구간의 누적분포함수를 구하고 싶다면 다음과 같이 구간의 처음과 끝의 누적분포함수의 값들의 차로 구할 수 있다.
○ 확률밀도함수의 누적분포함수는 다음과 같은 결과를 따른다.
확률(Probabilities) |
확률은 표본공간으로 구성된 확률실험이며, 확률값의 집합이다.
확률실험의 표본공간은 다음과 같이 표현될 수 있다.
확률 값들은 다음과 같은 특징을 가진다.
일어나는 결과 의 확률은 이며 다음과 같이 써질 수 있다.
확률의 공리(Axioms of Probability) |
공리란 수학에서 증명없이 당연한 것으로 여겨지는 명제를 말하며, 각종 증명에 기본적인 근간이되는 되기도한다.
확률에서 공리에 대해 설명하자면 다음과 같다.
표본공간 S가 존재할때, 사건 E에 대해, P{E}에 대해서는 아래와 같이 성립된다.
공리1: 각 사건의 확률은 0과 1의 사이의 값을 가진다.
공리2: 표본공간의 확률은 1이다.
공리3: 상호 배타적인 사건()들에 대해서 사건들의 총 확률은 각 사건들의 확률의 합과 같다.
통계 기초용어 |
통계학은 산술적 방법을 기반으로, 데이터를 관찰, 정리, 분석하는 방법을 연구하는 수학의 한 분야이다.
데이터(Data): 본질적 데이터과 노이즈의 혼합물을 나타낸다.
통계적 추론(Statistical inference, 통계적 추측): 데이터로부터 근본적인 확률분포의 특성을 추론(추측) 하는 과정을 의미한다.
모집단(Population): 특정 확률분포로부터 이용할 수 있는 가능한 모든 집단이다.
표본(Sample)
○ 모집단의 부분집합(subset)이다.
○ 표본은 모집단의 대표할 수 있도록 설정하는 것이 바람직하다.
무작위표본(Random sample): 모집단으로부터 무작위로 선택된 요소가 있는 표본이다.
이상치(Outliers): 표본의 메인바디로 구성된 분포의 밖에 있는 관측치이다.
○ 쉽게 설명하면 혼자 튀어있는 관측치이다.
표본 절삭평균(Sample trimmed mean)
○ 절삭평균은 관측치의 가장 큰 값과 가장 작은 값의 일부를 삭제하고 평균값을 계산함으로써 얻어진다.
○ 일반적으로 10% 절삭 평균은 상위 10% 데이터 포인트와 하위 10%의 데이터포인트를 삭제하여 계산된다.
표본최빈값(sample mode)
○ 범주형 혹은 이산 데이터에 대해, 표본최빈값은 데이터 관측치 중 가장 큰 수를 포함하는 범주 혹은 데이터값을 나타내는데 사용되어질 수 있다.
데이터 확인 요령:
○ 데이터의 종류가 무엇인가?
○ 데이터가 대표할 수 있는가?
○ 데이터의 무작위성은 어떻게 실현될 수 있는가?
관측의 종류 |
수치적인 관측과 범주형 관측이 있다.
○ 수치적인 관측(Numerical observation): 실수 혹은 정수로 구성되어 있다.
○ 범주형 관측(Categorical observation): 특정 범주를 나누어 관찰하는 것이다.
▷ 예) 기계의 고장 분류: 기계적 고장, 전기적 고장, 오사용 등
추정(Estimation)과 관련된 용어 |
매개변수(Parameters)
○ 통계적추론(statistical inference)에서 매개변수(Parameter)는 알려지지 않은 확률분포의 특성을 나타내는 양 를 나타낼 때 사용한다.
▷ 예를들어 어떠한 확률분포의 평균, 분산, 혹은 특정 분위수 등이 있다.
○ 매개변수는 알려지지 않은 경우가 많으며, 통계적 추론의 목적 중 하나는 이를 평가하는 것이다.
통계자료(Statistics)
○ 통계자료는 모집단 표본의 특성이다.
○ 통계자료는 어느 확률변수의 함수로 정의된다. 예를들어 표본 평균, 표본 분산, 혹은 표본의 분위수 등이 있다.
○ 통계자료에서 관측된 값은 확률변수의 데이터 값들로부터 계산될 수 있다.
▷ 대표적인 예로 다음과 같은 관측치를 기반으로한 평균 분산 데이터들이 있다.
추정, 평가(Estimation)
○ 평가는 모아진 데이터로부터 모집단의 특성을 예측하는 절차이다.
○ 알려지지 않은 매개변수 의 점추정은 세타의값에서 예측되는것으로 나타내진 통계자료로 나타내질 수 있다.
○ 매개변수의 점추정이 대표적인 예이다.
점추정(Point Estimation)
○ 점추정은 표본을 이용해 모집단의 각 모수를 추정하는 과정을 의미한다.
▷ 기본적으로 하나의 값을 추정한다.
▷ 점추정의 과정을 설명한 것이 아래 플로우차트이다.
○ 점추정에서 추정량과 추정의 의미는 다음과 같다.
▷ 추정량(Estimator): 추정량은 측정할때 사용하는 통계자료이다.
▷ 추정(Estimate): 추정은 추정량의 관측되는 값이다.
구간추정(interval estimates)
○ 구간 추정은 관심있는 구간을 포함하는 구간을 추정한다.
'Mathematics > 확률과 통계' 카테고리의 다른 글
결합확률, 공분산, 상관계수-확률과 통계(5) (0) | 2020.07.12 |
---|---|
체비쇼프 부등식과 분위수-확률과 통계(4) (0) | 2020.07.11 |
기댓값, 중앙값, 분산, 표준편차, 대칭확률변수-확률과 통계(3) (0) | 2020.07.09 |
조건부확률, 사후확률, 베이즈정리-확률과 통계(2) (0) | 2020.07.08 |
사건의 여집합, 교집합, 합집합-확률과 통계(1) (0) | 2020.07.06 |
댓글