본문 바로가기
반응형

통계34

데이터 요약을 위한 describe() 메서드-pandas(37) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 데이터 요약을 위한 describe() 메서드 본 포스팅에서는 각종 통계량을 요약해서 출력해주는 describe() 메서드에 대해 다루도록 한다. describe() 메서드 describe() 메서드는 다양한 통계량을 요약해주는 굉장히 편리한 메서드이다. ○ 통계량은 Series에 대해 요약이 수행된다. ○ DataFrame의 경우 열에 대해 요약이 수행된다. ○ 기본적으로 누락데이터(NaN)는 제외되고 데이터 요약이 수행된다. 다음은 메서드 사용의 형식을 보여준다. 메서드 사용 형식)result=object.describe(percentiles=None, include=None) 각 입력 객체별 설명은 다음과 같다. ○ percentiles: 이.. 2020. 10. 12.
pandas에서의 통계함수(메서드)-pandas(36) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 pandas에서의 통계함수(메서드) 본 포스팅에서는 다음과 같은 pandas에서 제공하는 다양한 통계함수에 대해 설명해보도록 한다. ○ count(요소개수), sum(합), mean(평균), mad(평균절대편차), abs(절대값), prod(곱) ○ median(중앙값), min(최소값), max(최대값), mode(최빈값) ○ std(표준편차), var(편차) ○ sem(평균의 표준오차), skew(표본왜도), kurt(표본첨도), quantile(분위수) ○ cumsum(누적합), cumprod(누적곱), cummax(누적최대값), cummin(누적최소값) 설명적 통계량(Descriptive statistic) 도출 메서드 pandas에는 Se.. 2020. 10. 11.
잔차분석과 상관분석-확률과통계(31) 잔차분석과 상관분석 본 포스팅에서는 회귀선에 대한 잔차분석과 상관분석에 대해 다루도록 한다. 잔차 분석(Residual Analysis) 잔차분석방법론(Residual Analysis Methods)잔차는 다음과 같이 정의된다. 잔차는 종속변수 의 관측치와 피팅된 데이터 의 차이이다. 잔차의 특성은 다음과 같다. 잔차분석은 다음과 같은 상황에서 사용될 수 있다. ○ 이상치(Outlier)인 데이터 포인트를 확인 ○ 피팅 모델이 적절한지 평가 ○ 오차 분산이 상수인지 확인 ○ 오차항들이 정규분포인지 평가 잔차분석의 결과 예제적절한 잔차 산포도아래 그림은 적절한 잔차의 산포도를 보여준다. ○ 여기에는 회귀분석을 사용한 분석에 대한 문제가 없다. ○ 잔차 플롯의 패턴 또는 절대 값이 큰 잔차는 회귀 모형에 문.. 2020. 8. 23.
예측값과 예측구간, 분산표를 활용한 분석, 결정계수-확률과통계(30) 미래응답값과 예상 구간, 분산표를 활용한 분석 본 포스팅은 미래응답값에 대한 예상구간과 분산표를 활용한 분석 그리고 결정계수 R^2에 대한 설명하도록한다. 미래응답값(Future Response Value)에 대한 예상 구간(Prediction Interval) 추론 절차평균값보다 미래 응답의 실제값을 추론하는 것이 더 중요하다.입력 에 대해 y를 이의 응답으로 두자, 그렇다면, 입력 의 응답 y는 이전 응답에 대해 독립적이므로 다음과 같다. 따라서 다음과 같다. 미래 응답값에 대한 예상 구간1-α 신뢰수준의 양방향 예상구간 (원인 변수의 특정값 에 대한 종속변수의 미래 값)은 다음과 같다. 단뱡향 예상구간의 다음과 같다. 분산표를 활용한 분석 Sum of Squares DecompositionSST는 .. 2020. 8. 21.
기울기값과 회귀선에 대한 추론-확률과통계(29) 기울기값과 회귀선에 대한 추론 본 포스팅에서는 기울기 값과 회귀선에 대한 추론에 대해 다루도록한다. 기울기값 에 대한 추론 추론절차단순선형회귀모델과 회귀모델의 기울기에 대해서는 이전 포스팅에서 아래와 같이 설명하였다. ※단순선형회귀모델과 기울기의 계산단순선형회귀모델은 다음과 같이 모델링된다. 단순선형회귀모델의 기울기는 다음과 같이 계산된다. 여기서, 가 정규 확률변수 표본추출(rvs, random variable sampling)의 선형조합이기 때문에, 기울기값 도 정규확률변수이다. ○ 가 확률변수라 볼 수 있으므로 다음과 같이 예상값(평균)과 분산이 계산될 수 있다. 결론적으로 는 다음과 같은 분포를 따른다. 기울기값 정규분포를 따른다면 아래같이 표준정규분포로 치환이 가능하며, 모집단의 분산과 표본분산.. 2020. 8. 20.
단순선형회귀모델과 피팅-확률과통계(28) 단순선형회귀모델과 피팅 본 포스팅에서는 단순선형 회귀모델에 대한 설명과 회귀선을 피팅하는 법에 대해 다루도록한다. 단순선형 회귀모델 (The simple linear regression model) 본 섹션에서는 선형회귀모델을 모델링 하는법에 대해 다루도록한다. 모델 정의 및 가정 먼저, 종속변수(dependent variable) 의 관측치는 원인변수(explanatory variable)의 선형함수와 함께 오차항로 구성되어 있다고 보며, 해당 식은 아래와 같다. ○ 매개변수 는 회귀식의 절편이며, 는 회귀식의 기울기다. ○ 는 오차항이며, 이 오차창의 분포는 를 따른다. ▷ 은 일반적으로 오차분산(error variance)에 대해 분포를 갖는 독립적인 관측치를 가진다. ▷ 이는 값 는 아래와 같은 .. 2020. 8. 19.
One-Way ANOVA(분산분석, Analysis Of Variance)-확률과통계(27) One-Way ANOVA(Analysis Of Variance) 본 포스팅에서는 One-Way ANOVA(Analysis Of Variance)에 대해 다룬다.좀더 상세하게는 아래와 같은 내용도 다룬다. ○ SSTr(Sum of Squares for Treatments), SSE(Sum of Squares for error), SST(Total sum of squares) ○ MSE(Mean Square Error), MSTr(Mean Squares for Treatments) ○ 분산표, 표본크기 등 일원 레이아웃(One Factor Layouts) 앞선 포스팅(링크)에서는 두 모집단의 비교를 수행하였고, 본 포스팅에서는 다수의 모집단을 비교하는 방법에 대해 다루도록한다.기본적인 컨셉은 똑같고 이를 확.. 2020. 8. 17.
이산데이터 분석(분할표)-확률과통계(26) 이산데이터 분석(Discrete Data Analysis) 본 포스팅에서는 단방향(One-Way) 및 양방향(Two-Way) 분할표(Contingency Table)에 대한 적합도 검정에 대해 다루도록한다. 이전 포스팅에서는 모집단에서 두 개의 카테고리로만 나누어 비교를 하였다. 이 포스팅에서는 다수의 이상의 카테고리로 나누어 비교를 수행하는 방법에 대해 다룰 것이다. 두개의 카테고리일 때는 이항분포(binomial distribution)로 모델링을 수행하였으나 세개 이상의 카테고리로 나눌때는 다항분포(multinomial distribution)로 모델링 하는 것이 적합하다. 단방향 분할표에 대한 적합도 검정(Goodness of Fit Tests for One-Way Contingency Table.. 2020. 8. 14.
이산데이터 분석(모비율기반 추론, 두 모비율 비교)-확률과통계(25) 이산데이터 분석(Discrete Data Analysis) 본 포스팅에서는 모비율(Population Proportion)을 기반한 추론과 두 모비율을 비교하는 법에 대해 다루도록 한다. 모비율(Population Proportion)을 기반한 추론 본 섹션에서는 모비율을 기반으로 한 신뢰구간을 추론하는 것에 대해 다룬다.모비율 기반 추론을 설명하는것에 앞서 모비율을 먼저 설명한다. ○ 모비율이란 모집단이 어떤 특성을 가지는 비율을 의미한다. ▷ 특성을 가진 표본과 가지지 못한 표본으로 나눌 수 있는데 이는 이항분포로 모사할 수 있다. ▷ 모집단에서 표본을 추출했을때 특성을 가질 확률을 p로, 가지지 못할 확률을 1-p로 둘 수 있고 여기서 p가 모비율이다. ▷ 해당 과정을 그림으로 표현하면 다음과 같다.. 2020. 8. 13.
반응형