본문 바로가기
반응형

Python/Pandas49

중복데이터의 처리(duplicated, drop_duplicates)-pandas(22) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 중복데이터의 처리 본 포스팅에서는 pandas에서 duplicated 및 drop_duplicates 메서드를 활용하여 중복데이터를 처리하는 방법에 대해 다룬다. 중복 데이터 처리를 위한 메서드 만약 사용자가 DataFrame에서 중복된 열을 확인하거나 제거해야한다면, 아래의 2가지 메서드를 통해 이를 할 수 있다. ○ duplicated: 메서드가 적용된 열과 길이가 동일한 불린 벡터를 반환한다. 그리고 어떤 요소가 중복된 요소인지 확인할 수 있다. ○ drop_duplicates: 중복 요소를 삭제한다. ○ 이 두 메서드는 중복된 요소를 식별하기 위해 열을 입력변수로 사용한다.이 메서드들은 Series, DataFrame, Index객체에 적.. 2019. 11. 6.
인덱스의 설정과 리셋(배정, set_index, reset_index)-pandas(21) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 인덱스의 세팅과 재설정 본 포스팅에서는 인덱스를 세팅하고 리셋하는 방법에 대해서 다루도록 한다. 인덱스의 세팅과 재설정 사용자는 경우에 따라서 DataFrame을 작성한 뒤에 인덱스를 새로 만들거나, 수정해야하는 상황이 있을 수 있다.이런 경우에 사용자는 크게 3가지 방법을 통해 인덱스를 설정할 수 있다. ○ DataFrame의 index 및 columns 어트리뷰트에 대한 직접 배정 ○ set_index 메서드의 활용 ○ reset_index 메서드의 활용 배정을 통한 인덱스 설정DataFrame에는 index 및 columns 어트리뷰트를 가지고 있으며, 이 어트리뷰트에 배정이 가능하다. 따라서 단순히 아래 형식과 같이 단순히 각 어트리뷰트에.. 2019. 11. 5.
index(인덱스)객체의 생성, 개요, 처리방법-pandas(20) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 index(인덱스) 객체 개요 본 포스팅에서는 인덱스 객체의 생성, 개요, 처리방법 등에 대해 다룬다. index 객체의 개요, 생성 및 데이터 설정 pandas에는 index 객체 또한 존재하며 다음과 같은 특징을 가진다. ○ Index 객체는 pandas의 모든 객체에 대한 축 레이블(label)을 저장하는 기본 객체이다. ○ 기본적으로 불변형 ndarray이며, 순서가 있고 슬라이스가 가능하다. ○ Index 클래스와 서브클래스는 순서가 있는 다중집합이라 여겨도된다. ○ 중복데이터 또한 입력이 가능하다. ○ Index 객체는 검색/색인, 데이터 정렬, 리인덱싱을 위한 다양한 기능들이 존재한다. Index 객체의 생성다음은 pandas에서 인.. 2019. 11. 3.
get 및 lookup 메서드 설명, 옵션, 사용 예제 -pandas(19) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 get 및 lookup 메서드 본 포스팅에서는 get 및 lookup 메서드에 대해 서술하도록 한다. get 메서드 pandas는 데이터 선택을 위해서 사용될 수 있는 메서드인 get 메서드를 지원한다.이 메서드는 대괄호[ ]를 통한 인덱싱과 유사하게 사용될 수 있다. ○ 차이점으로는 대괄호[ ]의 경우 데이터를 찾지 못할 시, 예외를 발생시키지만, get() 메서드는 기본값을 반환한다.다음은 get 메서드의 사용형식을 보여준다. get() 메서드 사용형식)Series.get(key default=None)DataFrame.get(key, default=None) key는 찾으려 하는 데이터의 레이블을 입력받는다. ○ Series에서는 행의 레이.. 2019. 11. 1.
query 메서드 옵션, 설명, 사용 예-pandas(18) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 query 메서드 옵션, 설명, 사용 예 본 포스팅에서는 query 메서드의 대한 내용, 설명, 사용 예 등을 서술한다. query 메서드 pandas에서 DataFrame은 query 메서드를 지원한다.이 메서드는 조건식을 문자열로 입력받아 해당 조건에 만족하는 행을 추출해 출력해주는 함수이다.사용 방법은 간단한데, 단순히 대괄호[ ]에서 조건식을 입력했던 것과 동일하게 입력을 해주면 되나 차이점은 문자열이 들어간다는 것이다. query() 메서드 사용형식)DataFrame.query(expr, inplace=False) expr은 입력되는 조건식을 입력받는다. ○ 입력되는 조건식은 문자열로 입력받는다.inplace가 True일 경우 query.. 2019. 10. 31.
where 및 mask 메서드 옵션, 설명, 사용 예-pandas(17) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 where 및 mask 메서드 옵션, 설명, 사용 예 본 포스팅에서는 where메서드에 대한 설명과 이를 응용한 인덱싱에 대해 설명한다. where 메서드 where 메서드는 특정 조건에 맞는 데이터들을 선택하여 출력하는데 사용될 수 있다. ○ 이 메서드는 조건식을 입력받는데, 조건식에 True에 해당하는 데이터들을 출력한다. ○ 이 메서드는 적용되는 Series나 DataFrame의 형상과 일치하는 데이터를 출력한다. where() 메서드 사용형식)Series.where(cond, other=None, inplace=False, axis=None)DataFrame.where(cond, other=None, inplace=False, axis=N.. 2019. 10. 28.
isin 메서드 옵션 및 설명과 인덱싱-pandas(16) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 isin() 메서드를 사용한 인덱싱 본 포스팅에서는 isin() 메서드를 활용하여 인덱싱 하는 방법에 대해서 다룬다. isin() 메서드 isin() 메서드는 메서드 이름에서 유추할 수 있듯이 요소가 Series나 DataFrame안에 요소가 isin() 메서드에 입력된 데이터가 있는지 판별해주는 역할을 한다. ○ 사용형식은 아래 사용형식 예제에서 확인할 수 있다. ○ 여기서, 아래 사용형식 순서와 영어 문장의 순서는 거의 동일하다고 생각하면 이해하기 편하다. ▷ "Data.isin(values)"가 영어 문장에서 "Data is in values"라고 생각해보자. isin() 메서드 사용형식)Series.isin(values)DataFrame... 2019. 10. 26.
패스트 인덱싱(.at, .iat)-pandas(15) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 패스트 인덱싱(at, iat) 본 포스팅에서는 .at 및 .iat 메서드를 다루도록한다. .at 및 .iat 메서드 대괄호[ ]를 사용한 인덱싱은 많은 입력을 받을 수 있다. 하지만 많은 입력을 다룰 수 있는 만큼, 많은 작업을 처리해야 해야하기 때문에 그만큼 성능을 포기해야한다.만약 사용자가 하나의 스칼라값에만 접근하고 싶다면 .at 및 .iat 메서드를 사용하여 성능을 개선할 수 있다. .at 및 .iat 메서드들은 하나의 스칼라 값에만 접근하는데 특화되어 있는 메서드들이다.이 메서드들의 사용법은 .loc 및 .iloc 메서드에서 하나의 스칼라 값에 접근하는 방법과 동일하다.이 메서드들은 Series와 DataFrame 둘 다 적용이 가능하다.. 2019. 10. 24.
불린 배열(boolean array)을 이용한 인덱싱-pandas(14) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 불린 배열을 이용한 인덱싱 본 포스팅에서는 불린 배열을 이용한 인덱싱에 대해 살펴볼 것이다. 불린 배열(boolean array) 설명 먼저 불린자료형(논리자료형)에 대한 설명으로는 다음과 같다. ○ 불린 자료형(논리 자료형)은 엄밀히 말하면 정수형 자료형 중 일부이다. ○ 0(False, 거짓)과 1(True, 참)으로만 구성되어 있다. 불린 배열(boolean array)은 말 그대로 불린 자료형으로 이루어진 배열을 의미한다. ○ 즉, 배열 내부에 True와 False만이 존재한다. 불린 배열 예)# pandas와 numpy의 importIn[2]: import pandas as pdIn[3]: import numpy as np # 불린배열의.. 2019. 10. 23.
반응형