본문 바로가기
Mathematics/확률과 통계

확률통계 기초용어-확률과 통계(0)

by 콩돌 2020. 7. 5.
반응형


 확률통계 기초용어

 

본 포스팅에서는 다음과 같은 확률 통계의 기초 용어에 대한 설명을 다룰 것이다.

  ○ 확률실험, 표본공간, 사건, 확률변수, 확률질량함수, 확률밀도함수, 누적분포함수, 확률, 확률의 공리

  ○ 데이터, 통계적추론, 모집단, 표본, 무작위표본 

  ○ 매개변수, 통계자료, 추정/평가, 점추정 


 확률 기초용어

 

확률과 통계 이론은 불확실성을 다루는 수학 분야 중 하나이다.

확률이론은 데이터로부터 통계학적 추론을 위한 기초를 제공한다.

 

확률 실험(Experiment)

  ○ 하나의 행위가 하나 이상의 결과를 도출하는 것에 대한 과정 혹은 절차를 나타낸다.

  ○ 예) 동전 던지기, 주사위 던지기 등


표본공간(Sample Space)

  ○ 확률실험에서 발생할 수 있는 모든 결과로 구성된 집합(set)이다.

  ○ 표본공간은 다음과 같이 표현할 수 있다.

 

사건(event)

  ○ 표본 공간에서의 일부분이다. 즉, 표본 공간의 부분집합(subset)이다.

  ○ 특정 결과들을 하나의 카테고리로 모아놓은 것이다.

  ○ 사건의 확률은 사건 안에 있는 확률들의 합으로 구성된다.

  ○ 사건 내의 하나의 결과가 일어난다면 그 사건은 일어나는 것으로 간주된다.

 

확률 변수(Random variable)

  ○ 특정 확률실험의 각각의 결과에 대한 수치적인 값을 나타낸다.

 

확률질량함수(PMF, Probability Mass Function)

  ○ 특정 확률변수 값에 대해 확률을 나타내는 함수를 나타낸다.

  ○ 보통 유한한 개수의 결과값을 가지고 각각의 결과값에 확률에 대한 값이 존재한다.

    ▷ 연속적인 함수와는 다르므로 주의가 필요하다. 

  ○ 다음과 같이 표현을 많이하며, 각 확률값은 0~1의 값을 가지고 그 확률값들의 합은 1이다.


확률밀도함수(PDF, Probability Density Function)

  ○ 연속적인 확률변수의 확률을 표현한 함수를 나타낸다.

  ○ 확률 질량함수와는 다르게 연속적으로 표현이 가능하다.

   함수의 종류에 따라 범위가 무한대까지 포함하는 경우가 존재한다.


  


누적분포함수(CDF, Cumulative Distribution Function)

  ○ 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수를 나타낸다.

  ○ 확률 질량함수의 누적분포는 다음과 같이 특정 값 이하의 결과값들을 합하여 구한다.


  ○ 확률밀도함수의 누적분포함수는 다음과 같이 적분을 통해 구한다.


  ○ 누적분포함수가 확률밀도 함수를 적분한 함수이므로 반대로 누적분포함수에서 미분을 한다면 확률밀도함수를 구할 수 있다.


  ○ 특정 구간의 누적분포함수를 구하고 싶다면 다음과 같이 구간의 처음과 끝의 누적분포함수의 값들의 차로 구할 수 있다.


  ○ 확률밀도함수의 누적분포함수는 다음과 같은 결과를 따른다.


 확률(Probabilities)

확률은 표본공간으로 구성된 확률실험이며, 확률값의 집합이다.

확률실험의 표본공간은 다음과 같이 표현될 수 있다.

 

확률 값들은 다음과 같은 특징을 가진다.

 

일어나는 결과 의 확률은 이며 다음과 같이 써질 수 있다.

 

 확률의 공리(Axioms of Probability)

공리란 수학에서 증명없이 당연한 것으로 여겨지는 명제를 말하며, 각종 증명에 기본적인 근간이되는 되기도한다. 

 

확률에서 공리에 대해 설명하자면 다음과 같다.

표본공간 S가 존재할때, 사건 E에 대해, P{E}에 대해서는 아래와 같이 성립된다.

 

공리1: 각 사건의 확률은 0과 1의 사이의 값을 가진다.

공리2: 표본공간의 확률은 1이다.

공리3: 상호 배타적인 사건()들에 대해서 사건들의 총 확률은 각 사건들의 확률의 합과 같다.

 

 통계 기초용어


통계학은 산술적 방법을 기반으로, 데이터를 관찰, 정리, 분석하는 방법을 연구하는 수학의 한 분야이다. 

 

데이터(Data): 본질적 데이터과 노이즈의 혼합물을 나타낸다.


통계적 추론(Statistical inference, 통계적 추측): 데이터로부터 근본적인 확률분포의 특성을 추론(추측) 하는 과정을 의미한다.

 

모집단(Population): 특정 확률분포로부터 이용할 수 있는 가능한 모든 집단이다.

 

표본(Sample)

  ○ 모집단의 부분집합(subset)이다.

  ○ 표본은 모집단의 대표할 수 있도록 설정하는 것이 바람직하다.

 

무작위표본(Random sample): 모집단으로부터 무작위로 선택된 요소가 있는 표본이다. 

 

이상치(Outliers): 표본의 메인바디로 구성된 분포의 밖에 있는 관측치이다.

  ○ 쉽게 설명하면 혼자 튀어있는 관측치이다.

 

표본 절삭평균(Sample trimmed mean)

  ○ 절삭평균은 관측치의 가장 큰 값과 가장 작은 값의 일부를 삭제하고 평균값을 계산함으로써 얻어진다.

  ○ 일반적으로 10% 절삭 평균은 상위 10% 데이터 포인트와 하위 10%의 데이터포인트를 삭제하여 계산된다.

 

표본최빈값(sample mode)

  ○ 범주형 혹은 이산 데이터에 대해, 표본최빈값은 데이터 관측치 중 가장 큰 수를 포함하는 범주 혹은 데이터값을 나타내는데 사용되어질 수 있다.

 

데이터 확인 요령: 

   데이터의 종류가 무엇인가?

   데이터가 대표할 수 있는가?

   데이터의 무작위성은 어떻게 실현될 수 있는가?

 

 관측의 종류

수치적인 관측과 범주형 관측이 있다.  

   수치적인 관측(Numerical observation): 실수 혹은 정수로 구성되어 있다.

   범주형 관측(Categorical observation): 특정 범주를 나누어 관찰하는 것이다.

    ▷ 예) 기계의 고장 분류: 기계적 고장, 전기적 고장, 오사용 등



 추정(Estimation)과 관련된 용어

매개변수(Parameters)

  ○ 통계적추론(statistical inference)에서 매개변수(Parameter)는 알려지지 않은 확률분포의 특성을 나타내는 양 를 나타낼 때 사용한다.

    ▷ 예를들어 어떠한 확률분포의 평균, 분산, 혹은 특정 분위수 등이 있다.

  ○ 매개변수는 알려지지 않은 경우가 많으며, 통계적 추론의 목적 중 하나는 이를 평가하는 것이다.


통계자료(Statistics)

  ○ 통계자료는 모집단 표본의 특성이다.

  ○ 통계자료는 어느 확률변수의 함수로 정의된다. 예를들어 표본 평균, 표본 분산, 혹은 표본의 분위수 등이 있다.

  ○ 통계자료에서 관측된 값은 확률변수의 데이터 값들로부터 계산될 수 있다.

    ▷ 대표적인 예로 다음과 같은 관측치를 기반으로한 평균 분산 데이터들이 있다. 


추정, 평가(Estimation)

  ○ 평가는 모아진 데이터로부터 모집단의 특성을 예측하는 절차이다.

  ○ 알려지지 않은 매개변수 의 점추정은 세타의값에서 예측되는것으로 나타내진 통계자료로 나타내질 수 있다. 

  ○ 매개변수의 점추정이 대표적인 예이다.


점추정(Point Estimation)

  ○ 점추정은 표본을 이용해 모집단의 각 모수를 추정하는 과정을 의미한다.

    ▷ 기본적으로 하나의 값을 추정한다.

    ▷ 점추정의 과정을 설명한 것이 아래 플로우차트이다.


  ○ 점추정에서 추정량과 추정의 의미는 다음과 같다.

    ▷ 추정량(Estimator): 추정량은 측정할때 사용하는 통계자료이다.

    ▷ 추정(Estimate): 추정은 추정량의 관측되는 값이다.



구간추정(interval estimates)

  ○ 구간 추정은 관심있는 구간을 포함하는 구간을 추정한다.



반응형

댓글