본문 바로가기
반응형

전체 글165

단순선형회귀모델과 피팅-확률과통계(28) 단순선형회귀모델과 피팅 본 포스팅에서는 단순선형 회귀모델에 대한 설명과 회귀선을 피팅하는 법에 대해 다루도록한다. 단순선형 회귀모델 (The simple linear regression model) 본 섹션에서는 선형회귀모델을 모델링 하는법에 대해 다루도록한다. 모델 정의 및 가정 먼저, 종속변수(dependent variable) 의 관측치는 원인변수(explanatory variable)의 선형함수와 함께 오차항로 구성되어 있다고 보며, 해당 식은 아래와 같다. ○ 매개변수 는 회귀식의 절편이며, 는 회귀식의 기울기다. ○ 는 오차항이며, 이 오차창의 분포는 를 따른다. ▷ 은 일반적으로 오차분산(error variance)에 대해 분포를 갖는 독립적인 관측치를 가진다. ▷ 이는 값 는 아래와 같은 .. 2020. 8. 19.
One-Way ANOVA(분산분석, Analysis Of Variance)-확률과통계(27) One-Way ANOVA(Analysis Of Variance) 본 포스팅에서는 One-Way ANOVA(Analysis Of Variance)에 대해 다룬다.좀더 상세하게는 아래와 같은 내용도 다룬다. ○ SSTr(Sum of Squares for Treatments), SSE(Sum of Squares for error), SST(Total sum of squares) ○ MSE(Mean Square Error), MSTr(Mean Squares for Treatments) ○ 분산표, 표본크기 등 일원 레이아웃(One Factor Layouts) 앞선 포스팅(링크)에서는 두 모집단의 비교를 수행하였고, 본 포스팅에서는 다수의 모집단을 비교하는 방법에 대해 다루도록한다.기본적인 컨셉은 똑같고 이를 확.. 2020. 8. 17.
이산데이터 분석(분할표)-확률과통계(26) 이산데이터 분석(Discrete Data Analysis) 본 포스팅에서는 단방향(One-Way) 및 양방향(Two-Way) 분할표(Contingency Table)에 대한 적합도 검정에 대해 다루도록한다. 이전 포스팅에서는 모집단에서 두 개의 카테고리로만 나누어 비교를 하였다. 이 포스팅에서는 다수의 이상의 카테고리로 나누어 비교를 수행하는 방법에 대해 다룰 것이다. 두개의 카테고리일 때는 이항분포(binomial distribution)로 모델링을 수행하였으나 세개 이상의 카테고리로 나눌때는 다항분포(multinomial distribution)로 모델링 하는 것이 적합하다. 단방향 분할표에 대한 적합도 검정(Goodness of Fit Tests for One-Way Contingency Table.. 2020. 8. 14.
이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25) 이산데이터 분석(Discrete Data Analysis) 본 포스팅에서는 모비율(Population Proportion)을 기반한 추론과 두 모비율을 비교하는 법에 대해 다루도록 한다. 모비율(Population Proportion)을 기반한 추론 본 섹션에서는 모비율을 기반으로 한 신뢰구간을 추론하는 것에 대해 다룬다.모비율 기반 추론을 설명하는것에 앞서 모비율을 먼저 설명한다. ○ 모비율이란 모집단이 어떤 특성을 가지는 비율을 의미한다. ▷ 특성을 가진 표본과 가지지 못한 표본으로 나눌 수 있는데 이는 이항분포로 모사할 수 있다. ▷ 모집단에서 표본을 추출했을때 특성을 가질 확률을 p로, 가지지 못할 확률을 1-p로 둘 수 있고 여기서 p가 모비율이다. ▷ 해당 과정을 그림으로 표현하면 다음과 같다.. 2020. 8. 13.
두개의 표본 비교-확률과통계(24) 두개의 표본 비교 본 포스팅에서는 두 개의 표본(짝을 이룬 표본, 독립적인 두 표본)을 비교하는 방법에 대해 다루도록 한다. 짝을 이룬 표본의 비교 아래와 같은 모집단 A, B의 집합이 있다고 가정하자. ○ 누적 분포함수를 가지는 모집단 A에서의 데이터 관측치 의 집합 ○ 누적 분포함수를 가지는 모집단 B에서의 데이터 관측치 의 집합 위의 두개의 모집단에서 과 를 비교하는데 두 모집단에서 분산이 다를 경우라면,두 모집단에서 표본 추출을 무작위로 선정하는 것이 좋은 방법이다. ○ 무작위 표본추출은 특정 종류의 대상이 선호되는 것에서 발생할 수 있는 편향성을 제거하는 데 도움을 준다. ▷ 맹검법(Blind experiment), 이중맹검법(double-blind experiment), 플라시보(Placebo.. 2020. 8. 11.
가설검정(유의수준, t-검정, z-검정)-확률과통계(23) 가설검정(유의수준, z-검정) 본 포스팅에서는 유의수준(Significance level)과 표준정규분포를 이용한 z-검정에 대해서 다룰 것이다. 가설검정의 유의수준(Significance level) 오류의 종류: 검정을 수행할 때 다음과 같은 오류가 존재한다. ○ 1종오류(type I error): 귀무가설이 참일때 이를 잘못 기각함으로써 발생하는 오류 ▷ 1종 오류의 발생 가능성은 α보다 크지 않다. ○ 2종오류(type II error): 귀무가설이 거짓일때 이를 잘못 채택함으로써 발생하는 오류 유의수준(Significance level)은 가설검정에 사용되는 기준값으로써, 1종 오류 확률의 상한으로 정의된다. ○ 신뢰수준이 1-α라면 α가 유의수준이 된다. ○ 일반적으로 α는 0.1, 0.05,.. 2020. 8. 9.
가설검정(귀무가설, 대립가설, p-값)-확률과통계(22) 가설검정(귀무가설, 대립가설, p-값) 본 포스팅에서는 귀무가설(Null hypothesis)과 대안가설(Alternative hypothesis)에 대한 설명과, 가설검정을 위해 사용하는 p-값(p-value)에 대해 설명한다. 귀무가설(Null hypothesis)과 대안가설(Alternative hypothesis) 가설검정에 대해 다루기에 앞서 귀무가설과 대안가설이 무엇인지 설명하도록한다. ○ 귀무가설(Null hypothesis): 모집단 확률변수와 추정치가 차이가 없다는 가설이다. ▷ 영가설이라고도 불린다. ▷ 수학적 기호로 라고 표현한다. ○ 대안가설(Alternative hypothesis): 모집단 확률변수와 추정치가 차이가 있다는 가설이다. ▷ 수학적 기호로 라고 표현한다. 아래에 열거.. 2020. 8. 8.
신뢰구간추정(스튜던트 t-분포, 표준정규분포)-확률과통계(21) 신뢰구간추정(t-분포, 표준정규분포) 본 포스팅에서는 신뢰구간에 대한 설명(Confidence interval)과 스튜던트 t-분포(Student's t-distribution), 표준정규분포(Standard Normal Distribution)을 사용하여 신뢰구간을 추정하는 방법에 대해 서술하도록 한다. 신뢰구간(Confidence interval)이란?신뢰구간(Confidence interval)은 신뢰수준의 확률로 알려지지 않은 매개변수(Parameter) 가 있을 것으로 예상되는 구간이다. ○ 예를들어 신뢰수준이 95%인 구간 (A,B)가 있다면 해당 매개변수는 구간 (A,B)에 있을 확률이 95%이다. 신뢰수준(Confidence level)신뢰수준(Confidence level)은 매개변수가 .. 2020. 8. 4.
점추정(적률법, 최대우도추정)-확률과통계(20) 점추정(적률법, 최대우도추정) 본 포스팅에서는 점추정(Point estimate) 중 적률법(Method of Moments)과 최대우도추정(MLE, Maximum Likelihood Estimates)에 대해 다루도록한다. 적률법(Method of Moments) 적률법(Method of Moments)은 점추정방법 중 하나로 적률을 이용하여 모수를 점추정하는 방법이다. ○ 적률과 적률생성함수에 대한 설명은 이 링크(여기)에 있다. ○ 설명이 어렵지만 쉽게 설명해서 를 적률이라하며 이를 이용하여 점추정을 수행하는 방법이다. ▷ 아래 나오지만 실제로 평균을 추정하기 위해 를 사용한다. 한개의 매개변수에 대한 모수추정 점평가만약 알려지지 않은 매개변수 에 의존적인 확률분포로부터의 관측치 의 데이터 집합이 .. 2020. 8. 3.
반응형