본문 바로가기
반응형

전체 글165

다수(여러개)의 함수 사용을 위한 agg() 메서드-pandas(33) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 다수의 함수 사용을 위한 agg() pandas의 객체에 다른 라이브러리의 함수를 적용하는 방법이 존재한다.아래의 메서드는 다른 라이브러리의 함수를 적용하는데 사용되는 메서드들이다. ○ 테이블형태로 정리해주는 함수 어플리케이션: pipe() ○ 행 혹은 열로 정리해주는 함수 어플리케이션: apply() ○ 집합 API: agg(), transform() ○ 요소별 적용 함수: applymap() 본 포스팅에서는 agg() 메서드의 사용법에 대해 다루도록 한다. agg() 메서드 agg() 메서드는 사용자에게 다중집계작업(multiple aggregation operation)을 간결하게 나타낼수 있도록 한다.이 메서드는 apply() 메서드와 유사.. 2020. 10. 8.
행과 열로의 함수 적용을 위한 apply() 메서드-pandas(32) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 행과 열로의 함수 적용을 위한 apply() 메서드 pandas의 객체에 다른 라이브러리의 함수를 적용하는 방법이 존재한다.아래의 메서드는 다른 라이브러리의 함수를 적용하는데 사용되는 메서드들이다. ○ 테이블형태로 정리해주는 함수 어플리케이션: pipe() ○ 행 혹은 열로 정리해주는 함수 어플리케이션: apply() ○ 집합 API: agg(), transform() ○ 요소별 적용 함수: applymap() 본 포스팅에서는 apply() 메서드의 사용법에 대해 다루도록 한다. apply() 메서드 apply()메서드는 pandas 객체에 열 혹은 행에 대해 함수를 적용하게 해주는 메서드이다.apply() 메서드의 적용방식은 아래와 같다. 메서드.. 2020. 10. 7.
연속적인 함수적용을 위한 pipe() 메서드-pandas(31) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 연속적인 함수적용을 위한 pipe() 메서드 pandas의 객체에 다른 라이브러리의 함수를 적용하는 방법이 존재한다.아래의 메서드는 다른 라이브러리의 함수를 적용하는데 사용되는 메서드들이다. ○ 테이블형태로 정리해주는 함수 어플리케이션: pipe() ○ 행 혹은 열로 정리해주는 함수 어플리케이션: apply() ○ 집합 API: agg(), transform() ○ 요소별 적용 함수: applymap() 본 포스팅에서는 pipe() 메서드의 사용법에 대해 다루도록 한다. pipe() 메서드 pipe()메서드는 pandas 객체에 함수를 적용하게 해주는 메서드이다.함수에 pandas 객체를 입력해도 된다. 하지만 pipe() 메서드를 사용하면 pan.. 2020. 10. 5.
인덱스(레이블) 수정을 위한 rename() 메서드-pandas(30) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 인덱스(레이블) 수정을 위한 rename() 메서드 본 포스팅에서는 rename() 메서드에 대해 다루도록 한다. rename() 메서드 rename() 메서드는 사용자에게 매핑(mapping) 혹은 임의의 함수를 기반으로 축의 레이블을 다시 설정할 수 있도록 한다. 메서드 사용형식은 아래와 같다. 메서드 사용 형식)result=object.rename(mapper, index, columns, axis=0, inplace=False) 각 입력 객체별 설명은 다음과 같다. ○ object: 데이터의 레이블을 변경하기 위해 메서드가 적용되는 객체(DataFrame, Series)이다. ○ mapper: 레이블을 대체할 기존레이블과 변경할 레이블이 매.. 2020. 9. 13.
두 객체의 데이터 정렬을 위한 align() 메서드 - pandas(29) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 두 객체의 데이터 정렬을 위한 align() 메서드 본 포스팅에서는 align() 메서드의 사용법에 대해 다룬다. align() 메서드 align() 메서드는 두 객체를 동시에 정렬하는 가장 빠른 방법이다. ○ 이 메서드는 두 객체를 정렬하여 두 객체로 구성된 튜플로 출력을 한다. 메서드 사용 형식)result=object1.align(object2, join=None, axis=None, fill_value=np.NaN, method=None, limit=None) 각 입력 객체별 설명은 다음과 같다. ○ object1: 데이터를 정렬하기 위해 메서드가 적용되는 객체1(DataFrame, Series)이다. ○ object2: 데이터를 정렬하기 .. 2020. 9. 11.
인덱스 정렬(순서 변경)을 위한 reindex() 메서드- pandas(28) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 인덱스 정렬(순서 변경)을 위한 reindex() 메서드 본 포스팅에서는 reindex()의 사용법에 다루도록 한다. reindex()를 사용하여 데이터를 정렬하는 방법부터 누락데이터 처리까지 그리고 상세 옵션을 설명하는 내용도 다루도록 한다. reindex()메서드 pandas에서 reindex() 메서드는 기본적인 데이터 정렬 메서드이다. ○ reindex()는 특정 축을 따라 입력된 레이블 배열에 따라 데이터 순서를 조정한다. ○ 이 메서드는 상당히 자유도가 높은 방법으로 데이터를 정렬한다. reindex()의 기능을 이용하면 다음과 같은 작업을 수행할 수 있다. ○ 기존에 존재하는 데이터에 레이블의 새로운 세트에 매치시켜 순서를 재조정한다... 2020. 9. 8.
잔차분석과 상관분석-확률과통계(31) 잔차분석과 상관분석 본 포스팅에서는 회귀선에 대한 잔차분석과 상관분석에 대해 다루도록 한다. 잔차 분석(Residual Analysis) 잔차분석방법론(Residual Analysis Methods)잔차는 다음과 같이 정의된다. 잔차는 종속변수 의 관측치와 피팅된 데이터 의 차이이다. 잔차의 특성은 다음과 같다. 잔차분석은 다음과 같은 상황에서 사용될 수 있다. ○ 이상치(Outlier)인 데이터 포인트를 확인 ○ 피팅 모델이 적절한지 평가 ○ 오차 분산이 상수인지 확인 ○ 오차항들이 정규분포인지 평가 잔차분석의 결과 예제적절한 잔차 산포도아래 그림은 적절한 잔차의 산포도를 보여준다. ○ 여기에는 회귀분석을 사용한 분석에 대한 문제가 없다. ○ 잔차 플롯의 패턴 또는 절대 값이 큰 잔차는 회귀 모형에 문.. 2020. 8. 23.
예측값과 예측구간, 분산표를 활용한 분석, 결정계수-확률과통계(30) 미래응답값과 예상 구간, 분산표를 활용한 분석 본 포스팅은 미래응답값에 대한 예상구간과 분산표를 활용한 분석 그리고 결정계수 R^2에 대한 설명하도록한다. 미래응답값(Future Response Value)에 대한 예상 구간(Prediction Interval) 추론 절차평균값보다 미래 응답의 실제값을 추론하는 것이 더 중요하다.입력 에 대해 y를 이의 응답으로 두자, 그렇다면, 입력 의 응답 y는 이전 응답에 대해 독립적이므로 다음과 같다. 따라서 다음과 같다. 미래 응답값에 대한 예상 구간1-α 신뢰수준의 양방향 예상구간 (원인 변수의 특정값 에 대한 종속변수의 미래 값)은 다음과 같다. 단뱡향 예상구간의 다음과 같다. 분산표를 활용한 분석 Sum of Squares DecompositionSST는 .. 2020. 8. 21.
기울기값과 회귀선에 대한 추론-확률과통계(29) 기울기값과 회귀선에 대한 추론 본 포스팅에서는 기울기 값과 회귀선에 대한 추론에 대해 다루도록한다. 기울기값 에 대한 추론 추론절차단순선형회귀모델과 회귀모델의 기울기에 대해서는 이전 포스팅에서 아래와 같이 설명하였다. ※단순선형회귀모델과 기울기의 계산단순선형회귀모델은 다음과 같이 모델링된다. 단순선형회귀모델의 기울기는 다음과 같이 계산된다. 여기서, 가 정규 확률변수 표본추출(rvs, random variable sampling)의 선형조합이기 때문에, 기울기값 도 정규확률변수이다. ○ 가 확률변수라 볼 수 있으므로 다음과 같이 예상값(평균)과 분산이 계산될 수 있다. 결론적으로 는 다음과 같은 분포를 따른다. 기울기값 정규분포를 따른다면 아래같이 표준정규분포로 치환이 가능하며, 모집단의 분산과 표본분산.. 2020. 8. 20.
반응형