본문 바로가기
반응형

확률32

잔차분석과 상관분석-확률과통계(31) 잔차분석과 상관분석 본 포스팅에서는 회귀선에 대한 잔차분석과 상관분석에 대해 다루도록 한다. 잔차 분석(Residual Analysis) 잔차분석방법론(Residual Analysis Methods)잔차는 다음과 같이 정의된다. 잔차는 종속변수 의 관측치와 피팅된 데이터 의 차이이다. 잔차의 특성은 다음과 같다. 잔차분석은 다음과 같은 상황에서 사용될 수 있다. ○ 이상치(Outlier)인 데이터 포인트를 확인 ○ 피팅 모델이 적절한지 평가 ○ 오차 분산이 상수인지 확인 ○ 오차항들이 정규분포인지 평가 잔차분석의 결과 예제적절한 잔차 산포도아래 그림은 적절한 잔차의 산포도를 보여준다. ○ 여기에는 회귀분석을 사용한 분석에 대한 문제가 없다. ○ 잔차 플롯의 패턴 또는 절대 값이 큰 잔차는 회귀 모형에 문.. 2020. 8. 23.
예측값과 예측구간, 분산표를 활용한 분석, 결정계수-확률과통계(30) 미래응답값과 예상 구간, 분산표를 활용한 분석 본 포스팅은 미래응답값에 대한 예상구간과 분산표를 활용한 분석 그리고 결정계수 R^2에 대한 설명하도록한다. 미래응답값(Future Response Value)에 대한 예상 구간(Prediction Interval) 추론 절차평균값보다 미래 응답의 실제값을 추론하는 것이 더 중요하다.입력 에 대해 y를 이의 응답으로 두자, 그렇다면, 입력 의 응답 y는 이전 응답에 대해 독립적이므로 다음과 같다. 따라서 다음과 같다. 미래 응답값에 대한 예상 구간1-α 신뢰수준의 양방향 예상구간 (원인 변수의 특정값 에 대한 종속변수의 미래 값)은 다음과 같다. 단뱡향 예상구간의 다음과 같다. 분산표를 활용한 분석 Sum of Squares DecompositionSST는 .. 2020. 8. 21.
기울기값과 회귀선에 대한 추론-확률과통계(29) 기울기값과 회귀선에 대한 추론 본 포스팅에서는 기울기 값과 회귀선에 대한 추론에 대해 다루도록한다. 기울기값 에 대한 추론 추론절차단순선형회귀모델과 회귀모델의 기울기에 대해서는 이전 포스팅에서 아래와 같이 설명하였다. ※단순선형회귀모델과 기울기의 계산단순선형회귀모델은 다음과 같이 모델링된다. 단순선형회귀모델의 기울기는 다음과 같이 계산된다. 여기서, 가 정규 확률변수 표본추출(rvs, random variable sampling)의 선형조합이기 때문에, 기울기값 도 정규확률변수이다. ○ 가 확률변수라 볼 수 있으므로 다음과 같이 예상값(평균)과 분산이 계산될 수 있다. 결론적으로 는 다음과 같은 분포를 따른다. 기울기값 정규분포를 따른다면 아래같이 표준정규분포로 치환이 가능하며, 모집단의 분산과 표본분산.. 2020. 8. 20.
단순선형회귀모델과 피팅-확률과통계(28) 단순선형회귀모델과 피팅 본 포스팅에서는 단순선형 회귀모델에 대한 설명과 회귀선을 피팅하는 법에 대해 다루도록한다. 단순선형 회귀모델 (The simple linear regression model) 본 섹션에서는 선형회귀모델을 모델링 하는법에 대해 다루도록한다. 모델 정의 및 가정 먼저, 종속변수(dependent variable) 의 관측치는 원인변수(explanatory variable)의 선형함수와 함께 오차항로 구성되어 있다고 보며, 해당 식은 아래와 같다. ○ 매개변수 는 회귀식의 절편이며, 는 회귀식의 기울기다. ○ 는 오차항이며, 이 오차창의 분포는 를 따른다. ▷ 은 일반적으로 오차분산(error variance)에 대해 분포를 갖는 독립적인 관측치를 가진다. ▷ 이는 값 는 아래와 같은 .. 2020. 8. 19.
One-Way ANOVA(분산분석, Analysis Of Variance)-확률과통계(27) One-Way ANOVA(Analysis Of Variance) 본 포스팅에서는 One-Way ANOVA(Analysis Of Variance)에 대해 다룬다.좀더 상세하게는 아래와 같은 내용도 다룬다. ○ SSTr(Sum of Squares for Treatments), SSE(Sum of Squares for error), SST(Total sum of squares) ○ MSE(Mean Square Error), MSTr(Mean Squares for Treatments) ○ 분산표, 표본크기 등 일원 레이아웃(One Factor Layouts) 앞선 포스팅(링크)에서는 두 모집단의 비교를 수행하였고, 본 포스팅에서는 다수의 모집단을 비교하는 방법에 대해 다루도록한다.기본적인 컨셉은 똑같고 이를 확.. 2020. 8. 17.
이산데이터 분석(분할표)-확률과통계(26) 이산데이터 분석(Discrete Data Analysis) 본 포스팅에서는 단방향(One-Way) 및 양방향(Two-Way) 분할표(Contingency Table)에 대한 적합도 검정에 대해 다루도록한다. 이전 포스팅에서는 모집단에서 두 개의 카테고리로만 나누어 비교를 하였다. 이 포스팅에서는 다수의 이상의 카테고리로 나누어 비교를 수행하는 방법에 대해 다룰 것이다. 두개의 카테고리일 때는 이항분포(binomial distribution)로 모델링을 수행하였으나 세개 이상의 카테고리로 나눌때는 다항분포(multinomial distribution)로 모델링 하는 것이 적합하다. 단방향 분할표에 대한 적합도 검정(Goodness of Fit Tests for One-Way Contingency Table.. 2020. 8. 14.
이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25) 이산데이터 분석(Discrete Data Analysis) 본 포스팅에서는 모비율(Population Proportion)을 기반한 추론과 두 모비율을 비교하는 법에 대해 다루도록 한다. 모비율(Population Proportion)을 기반한 추론 본 섹션에서는 모비율을 기반으로 한 신뢰구간을 추론하는 것에 대해 다룬다.모비율 기반 추론을 설명하는것에 앞서 모비율을 먼저 설명한다. ○ 모비율이란 모집단이 어떤 특성을 가지는 비율을 의미한다. ▷ 특성을 가진 표본과 가지지 못한 표본으로 나눌 수 있는데 이는 이항분포로 모사할 수 있다. ▷ 모집단에서 표본을 추출했을때 특성을 가질 확률을 p로, 가지지 못할 확률을 1-p로 둘 수 있고 여기서 p가 모비율이다. ▷ 해당 과정을 그림으로 표현하면 다음과 같다.. 2020. 8. 13.
두개의 표본 비교-확률과통계(24) 두개의 표본 비교 본 포스팅에서는 두 개의 표본(짝을 이룬 표본, 독립적인 두 표본)을 비교하는 방법에 대해 다루도록 한다. 짝을 이룬 표본의 비교 아래와 같은 모집단 A, B의 집합이 있다고 가정하자. ○ 누적 분포함수를 가지는 모집단 A에서의 데이터 관측치 의 집합 ○ 누적 분포함수를 가지는 모집단 B에서의 데이터 관측치 의 집합 위의 두개의 모집단에서 과 를 비교하는데 두 모집단에서 분산이 다를 경우라면,두 모집단에서 표본 추출을 무작위로 선정하는 것이 좋은 방법이다. ○ 무작위 표본추출은 특정 종류의 대상이 선호되는 것에서 발생할 수 있는 편향성을 제거하는 데 도움을 준다. ▷ 맹검법(Blind experiment), 이중맹검법(double-blind experiment), 플라시보(Placebo.. 2020. 8. 11.
가설검정(유의수준, t-검정, z-검정)-확률과통계(23) 가설검정(유의수준, z-검정) 본 포스팅에서는 유의수준(Significance level)과 표준정규분포를 이용한 z-검정에 대해서 다룰 것이다. 가설검정의 유의수준(Significance level) 오류의 종류: 검정을 수행할 때 다음과 같은 오류가 존재한다. ○ 1종오류(type I error): 귀무가설이 참일때 이를 잘못 기각함으로써 발생하는 오류 ▷ 1종 오류의 발생 가능성은 α보다 크지 않다. ○ 2종오류(type II error): 귀무가설이 거짓일때 이를 잘못 채택함으로써 발생하는 오류 유의수준(Significance level)은 가설검정에 사용되는 기준값으로써, 1종 오류 확률의 상한으로 정의된다. ○ 신뢰수준이 1-α라면 α가 유의수준이 된다. ○ 일반적으로 α는 0.1, 0.05,.. 2020. 8. 9.
반응형