본문 바로가기
반응형

Python/Pandas49

연속적인 함수적용을 위한 pipe() 메서드-pandas(31) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 연속적인 함수적용을 위한 pipe() 메서드 pandas의 객체에 다른 라이브러리의 함수를 적용하는 방법이 존재한다.아래의 메서드는 다른 라이브러리의 함수를 적용하는데 사용되는 메서드들이다. ○ 테이블형태로 정리해주는 함수 어플리케이션: pipe() ○ 행 혹은 열로 정리해주는 함수 어플리케이션: apply() ○ 집합 API: agg(), transform() ○ 요소별 적용 함수: applymap() 본 포스팅에서는 pipe() 메서드의 사용법에 대해 다루도록 한다. pipe() 메서드 pipe()메서드는 pandas 객체에 함수를 적용하게 해주는 메서드이다.함수에 pandas 객체를 입력해도 된다. 하지만 pipe() 메서드를 사용하면 pan.. 2020. 10. 5.
인덱스(레이블) 수정을 위한 rename() 메서드-pandas(30) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 인덱스(레이블) 수정을 위한 rename() 메서드 본 포스팅에서는 rename() 메서드에 대해 다루도록 한다. rename() 메서드 rename() 메서드는 사용자에게 매핑(mapping) 혹은 임의의 함수를 기반으로 축의 레이블을 다시 설정할 수 있도록 한다. 메서드 사용형식은 아래와 같다. 메서드 사용 형식)result=object.rename(mapper, index, columns, axis=0, inplace=False) 각 입력 객체별 설명은 다음과 같다. ○ object: 데이터의 레이블을 변경하기 위해 메서드가 적용되는 객체(DataFrame, Series)이다. ○ mapper: 레이블을 대체할 기존레이블과 변경할 레이블이 매.. 2020. 9. 13.
두 객체의 데이터 정렬을 위한 align() 메서드 - pandas(29) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 두 객체의 데이터 정렬을 위한 align() 메서드 본 포스팅에서는 align() 메서드의 사용법에 대해 다룬다. align() 메서드 align() 메서드는 두 객체를 동시에 정렬하는 가장 빠른 방법이다. ○ 이 메서드는 두 객체를 정렬하여 두 객체로 구성된 튜플로 출력을 한다. 메서드 사용 형식)result=object1.align(object2, join=None, axis=None, fill_value=np.NaN, method=None, limit=None) 각 입력 객체별 설명은 다음과 같다. ○ object1: 데이터를 정렬하기 위해 메서드가 적용되는 객체1(DataFrame, Series)이다. ○ object2: 데이터를 정렬하기 .. 2020. 9. 11.
인덱스 정렬(순서 변경)을 위한 reindex() 메서드- pandas(28) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 인덱스 정렬(순서 변경)을 위한 reindex() 메서드 본 포스팅에서는 reindex()의 사용법에 다루도록 한다. reindex()를 사용하여 데이터를 정렬하는 방법부터 누락데이터 처리까지 그리고 상세 옵션을 설명하는 내용도 다루도록 한다. reindex()메서드 pandas에서 reindex() 메서드는 기본적인 데이터 정렬 메서드이다. ○ reindex()는 특정 축을 따라 입력된 레이블 배열에 따라 데이터 순서를 조정한다. ○ 이 메서드는 상당히 자유도가 높은 방법으로 데이터를 정렬한다. reindex()의 기능을 이용하면 다음과 같은 작업을 수행할 수 있다. ○ 기존에 존재하는 데이터에 레이블의 새로운 세트에 매치시켜 순서를 재조정한다... 2020. 9. 8.
데이터셋활용 누락값 채우기, 데이터 조합-pandas(27) 파이썬 버전 3.7 기준pandas 버전 1.0.3 기준 데이터셋활용 누락값 채우기, 데이터 조합 본 포스팅에서는 pandas에서 제공하는 combine_first()메서드를 활용한 누락데이터를 채우는 방법과, combine메서드를 활용하여 데이터를 조합하는 방법에 대해 다루도록 한다. 데이터셋활용 누락값 채우기, 데이터 조합 누락데이터 채우는 combine_first() 메서드두 개의 데이터가 존재할때 하나의 데이터의 퀄리티가 더 좋은 반면 누락값(missing value)이 많고, 다른 하나의 데이터는 퀄리티가 떨어지지만 누락값이 적은 경우가 있다.이런 경우에 퀄리티가 더 좋은 데이터의 누락값에 다른 데이터로 채우고싶을 경우가 있을 수 있다.이런경우 combine_first() 메서드를 활용하면 된다.. 2020. 4. 21.
불린리덕션(empty, any, all, bool)-pandas(26) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 불린리덕션(boolean reduction) 본 포스팅에서는 pandas에서 제공하는 empty, any, all, bool메서드를 활불린리덕션 기능을 소개하도록 한다. 불린리덕션 사용자는 불린리덕션이라고 하는 기능을 적용할 수 있다. ○ empty, any(), all(), bool() 등이 메서드들은 불린 결과를 요약하는 기능을 갖추고 있다.각 기능에 대한 설명은 다음과 같다. 다음과 같이 pandas와 numpy를 import시킨 후 예제를 수행하였다. 모듈의 임폴트)# pandas와 numpy의 importIn[2]: import pandas as pdIn[3]: import numpy as np DataFrame.emptyDataFram.. 2020. 4. 19.
객체간의 비교 연산(eq, ne, lt, gt, le, ge, equals)-pandas(25) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 객체간의 비교 연산 본 포스팅에서는 pandas 메서드를 사용하여 객체간의 비교 연산을 수행하는 것에 대해 다루도록 한다. 객체간의 비교연산 Series와 DataFrame은 객체간 비교를 수행할 수 있도록 이항 비교 메서드(binary comparison method)들 가진다. ○ eq, ne, lt, gt, le, ge ○ 이 메서드들은 Fortran유저들이라면 익숙하지 않을까 싶다. ○ 기호로도 사용이 가능하다. 각각의 연산 메서드들의 의미는 다음과 같다. 비교연산 메서드 기호(※) 의미 eq() == 같다 ne() =! 다르다 lt() 크다 le() = 크거나 같다 ※ 기호와 메서드의 차이? A.eq(B)와 A==B는 동일한 연산을 수행.. 2020. 4. 11.
객체간의 연산 add, sub, mul, div-pandas(24) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 객체간의 연산 add, sub, mul, div 본 포스팅에서는 pandas에서 객체간의 연산과 메서드를 통한 누락데이터 처리에 대해 설명한다. 객체간의 연산 pandas와 data structure 간에 연산을 수행하기 위해, 두 가지 중요한 키포인트가 있다. ○ 브로드캐스팅(broadcasting) 거동 ▷ 높은 차원과 낮은 차원객체 간의 연산 수행 시 ○ 계산시 누락데이터(missing data)의 처리 여기서는 위의 이슈들을 어떻게 다루는지 살펴볼 것이다. 연산 메서드 개요DataFrame은 객체간의 이항 연산(binary operation)을 처리하기 위해 다양한 메서드들을 가진다. ○ add(), sub(), mul(), div(), .. 2020. 4. 5.
랜덤 샘플의 추출 및 선택(sample)-pandas(23) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 무작위 샘플 추출을 위한 sample 메서드 본 포스팅에서는 객체내의 임의의 샘플을 선정하여 추출하는 방법에 대해 다룬다. 랜덤 샘플의 추출 pandas에서는 객체내에서 랜덤한 샘플을 추출할 수 있도록 하는 메서드가 존재한다.sample() 메서드를 사용하면 랜덤한 샘플을 추출할 수 있는데 이 메서드는 Series와 DataFrame 둘 다 적용이 가능하다. ○ 이 메서드는 행을 기본값으로 샘플링을 한다.이 메서드에 대한 사용방식은 다음과 같다. sample 메서드의 사용형식)Series.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)DataF.. 2019. 11. 9.
반응형