본문 바로가기
반응형

전체 글165

멀티인덱스 레이블의 추출과 비사용 level의 제거-pandas(42) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 멀티인덱스 레이블의 추출과 비사용 level의 제거 본 포스팅에서는 멀티인덱스(MultiIndex)의 특정 level(단계)의 레이블을 추출하고, 사용하지 않는 level(단계)를 삭제하는 방법에 대해 다루도록 한다.이를 위해 get_level_values() 메서드와 remove_unused_levels() 메서드를 소개한다. 특정 level 레이블의 추출을 위한 get_level_values() 메서드 사용자가 MultiIndex에서 특정 level(단계)의 레이블을 추출해야하는 경우에는, get_level_values() 메서드를 이용하면된다.get_level_values() 메서드는 특정 level에서 각각의 위치에 대한 레이블의 벡터를 반.. 2020. 11. 5.
멀티인덱스(Multiindex)의 생성-pandas(41) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 멀티인덱스 생성 본 포스팅에서는 멀티인덱스에 대한 소개와 생성하는 방법에 대해서 다루도록 한다.이를 위해 from_arrays(), from_tuples(), from_product(), from_frame() 함수를 소개하며 이를 이용한 생성 예제를 다룬다. 다단계 인덱싱(멀티인덱스) 멀티인덱스는 데이터 프레임에 여러 level(단계)의 인덱스를 넣는 것을 지칭한다.즉, 인덱스를 다단계로 만들어 다차원 객체를 생성할 수 있다. ○ 다단계/멀티인덱싱은 꽤 정교한 데이터분석과 조작을 할 수 있게 한다. ○ 그중에서도 특히 높은 차원(Dimension)을 다루는데 유용하다. ○ 사용자에게 Series(1D)나 DataFrame(2D)같은 낮은 차원의 .. 2020. 11. 4.
이산화를 위한(구간별 나누기) qcut, cut 함수-pandas(40) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 이산화를 위한 qcut, cut 함수 본 포스팅에서는 이산화 작업 수행하기 위해 존재하는 qcut(), cut() 함수에 대해 다룬다.본 메서드에서 사용 하는 구간인덱스에 대한 설명은 여기(링크)를 참고한다. 이산화(Discretization)와 분위수(Quantiling) 연속적인 값들에 대해서는 cut() 및 qcut() 함수를 통해 이산화될 수 있다. ○ cut은 값들을 기반으로 이산화를 수행한다. ▷ 즉, 사용자가 이산화를 할 수치를 직접 입력한다 ○ qcut은 샘플의 변위치를 기반으로 이산화를 수행한다. ▷ 특정 분위수를 계산하여 이를 기반으로 이산화를 수행한다. 아래는 함수의 사용 형식을 보여준다.앞선 예제들과는 다르게 qcut()과 c.. 2020. 10. 17.
중복 요소 수 세기(히스토그래밍) value_counts 메서드-pandas(39) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 중복 요소 수 세기(히스토그래밍) value_counts 메서드 본 포스팅에서는 요소별 개수 확인(히스토그램 작성용)하기 위한 value_counts()메서드에 대해 다루고 최빈값 mode()에 대해 간략히 다뤄보도록 한다. 중복 요소의 수와 최빈값 value_counts() Series 메서드와 top-level 함수는 1차원의 히스토그램을 계산한다. ○ 말이 어려운데 동일한 요소들이 몇 개나 있는지 출력한다. ○ 각 요소별로 개수를 출력한다면 히스토그램을 작성할 수 있다. 이 메서드는 일반적인 배열 역시 입력으로 사용이 가능하다. 메서드 사용 형식)result=Series.value_counts(normalize=False, sort=True,.. 2020. 10. 16.
최대/최소값 인덱스(레이블) idxmin, idxmax 메서드-pandas(38) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 최대/최소값 인덱스(레이블) idxmin, idxmax 메서드 본 포스팅에서는 최대값, 최소값의 인덱스를 찾는 idxmin 및 idxmax 메서드를 다룬다. 최소/최대값의 인덱스 최대값이나 최소값을 가지는 인덱스를 불러오는 방법으로는 아래의 메서드를 활용하면 된다. ○ idxmin(): 최소값을 가지는 인덱스 레이블을 출력한다. ○ idxmax(): 최대값을 가지는 인덱스 레이블을 출력한다. 아래는 각 매서드의 사용 형식을 보여준다. 메서드 사용 형식)result=object.idxmin(axis=0, skipna=True)result=object.idxmax(axis=0, skipna=True) 각 입력 객체별 설명은 다음과 같다. ○ axis:.. 2020. 10. 15.
데이터 요약을 위한 describe() 메서드-pandas(37) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 데이터 요약을 위한 describe() 메서드 본 포스팅에서는 각종 통계량을 요약해서 출력해주는 describe() 메서드에 대해 다루도록 한다. describe() 메서드 describe() 메서드는 다양한 통계량을 요약해주는 굉장히 편리한 메서드이다. ○ 통계량은 Series에 대해 요약이 수행된다. ○ DataFrame의 경우 열에 대해 요약이 수행된다. ○ 기본적으로 누락데이터(NaN)는 제외되고 데이터 요약이 수행된다. 다음은 메서드 사용의 형식을 보여준다. 메서드 사용 형식)result=object.describe(percentiles=None, include=None) 각 입력 객체별 설명은 다음과 같다. ○ percentiles: 이.. 2020. 10. 12.
pandas에서의 통계함수(메서드)-pandas(36) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 pandas에서의 통계함수(메서드) 본 포스팅에서는 다음과 같은 pandas에서 제공하는 다양한 통계함수에 대해 설명해보도록 한다. ○ count(요소개수), sum(합), mean(평균), mad(평균절대편차), abs(절대값), prod(곱) ○ median(중앙값), min(최소값), max(최대값), mode(최빈값) ○ std(표준편차), var(편차) ○ sem(평균의 표준오차), skew(표본왜도), kurt(표본첨도), quantile(분위수) ○ cumsum(누적합), cumprod(누적곱), cummax(누적최대값), cummin(누적최소값) 설명적 통계량(Descriptive statistic) 도출 메서드 pandas에는 Se.. 2020. 10. 11.
요소별 함수의 적용 applymap(), map() 메서드-pandas(35) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 요소별 함수의 적용 applymap(), map() 메서드 pandas의 객체에 다른 라이브러리의 함수를 적용하는 방법이 존재한다.아래의 메서드는 다른 라이브러리의 함수를 적용하는데 사용되는 메서드들이다. ○ 테이블형태로 정리해주는 함수 어플리케이션: pipe() ○ 행 혹은 열로 정리해주는 함수 어플리케이션: apply() ○ 집합 API: agg(), transform() ○ 요소별 적용 함수: applymap() 본 포스팅에서는 applymap(), map() 메서드의 사용법에 대해 다루도록 한다. applymap(), map() 메서드 applymap(), map() 메서드는 요소별로 함수를 적용하는 메서드이다. ○ applymap() 메서.. 2020. 10. 10.
다중(여러개) 함수 적용 transform() 메서드-pandas(34) 파이썬 버전 3.8 기준pandas 버전 1.1.1 기준 다중(여러개) 함수 적용 transform() 메서드 pandas의 객체에 다른 라이브러리의 함수를 적용하는 방법이 존재한다.아래의 메서드는 다른 라이브러리의 함수를 적용하는데 사용되는 메서드들이다. ○ 테이블형태로 정리해주는 함수 어플리케이션: pipe() ○ 행 혹은 열로 정리해주는 함수 어플리케이션: apply() ○ 집합 API: agg(), transform() ○ 요소별 적용 함수: applymap() 본 포스팅에서는 transform() 메서드의 사용법에 대해 다루도록 한다. transform() 메서드 transform() 메서드는 입력된 객체와 동일하게 인덱스된 객체를 반환한다. ○ 사용자에게 하나하나 하기보다는 동일한 시간대에 다.. 2020. 10. 9.
반응형