본문 바로가기
반응형

전체 글165

사건의 여집합, 교집합, 합집합-확률과 통계(1) 사건의 여집합, 합집합, 교집합 본 포스팅에서는 사건의 여집합(Complement), 합집합(Union), 교집합(Intersection)을 다루도록 한다.그외에 상호배타적사건(Mutually Exclusive Events)에 대한 설명도 간략히 다루도록 한다. 사건의 여집합 여집합(Complement) ○ 여집합은 표본공간에서 특정 사건(event)를 제외한 나머지 것들을 의미한다. ○ 사건 A에 대한 여집합은 A'로 표기한다. ○ 사건 A에 대한 여집합 A'은 사건 A을 제외한 모든 사건을 의미한다. ○ 따라서 모든 경우에 대해서 다음과 같다. ○ 아래 그림은 표본 공간에서 여집합의 영역을 보여주는 그림이다. 종종 사건이 하나의 단독의 결과로 구성되는 경우가 있는데, 이를 단순사건(simple eve.. 2020. 7. 6.
확률통계 기초용어-확률과 통계(0) 확률통계 기초용어 본 포스팅에서는 다음과 같은 확률 통계의 기초 용어에 대한 설명을 다룰 것이다. ○ 확률실험, 표본공간, 사건, 확률변수, 확률질량함수, 확률밀도함수, 누적분포함수, 확률, 확률의 공리 ○ 데이터, 통계적추론, 모집단, 표본, 무작위표본 ○ 매개변수, 통계자료, 추정/평가, 점추정 확률 기초용어 확률과 통계 이론은 불확실성을 다루는 수학 분야 중 하나이다.확률이론은 데이터로부터 통계학적 추론을 위한 기초를 제공한다. 확률 실험(Experiment) ○ 하나의 행위가 하나 이상의 결과를 도출하는 것에 대한 과정 혹은 절차를 나타낸다. ○ 예) 동전 던지기, 주사위 던지기 등 표본공간(Sample Space) ○ 확률실험에서 발생할 수 있는 모든 결과로 구성된 집합(set)이다. ○ 표본공.. 2020. 7. 5.
데이터셋활용 누락값 채우기, 데이터 조합-pandas(27) 파이썬 버전 3.7 기준pandas 버전 1.0.3 기준 데이터셋활용 누락값 채우기, 데이터 조합 본 포스팅에서는 pandas에서 제공하는 combine_first()메서드를 활용한 누락데이터를 채우는 방법과, combine메서드를 활용하여 데이터를 조합하는 방법에 대해 다루도록 한다. 데이터셋활용 누락값 채우기, 데이터 조합 누락데이터 채우는 combine_first() 메서드두 개의 데이터가 존재할때 하나의 데이터의 퀄리티가 더 좋은 반면 누락값(missing value)이 많고, 다른 하나의 데이터는 퀄리티가 떨어지지만 누락값이 적은 경우가 있다.이런 경우에 퀄리티가 더 좋은 데이터의 누락값에 다른 데이터로 채우고싶을 경우가 있을 수 있다.이런경우 combine_first() 메서드를 활용하면 된다.. 2020. 4. 21.
불린리덕션(empty, any, all, bool)-pandas(26) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 불린리덕션(boolean reduction) 본 포스팅에서는 pandas에서 제공하는 empty, any, all, bool메서드를 활불린리덕션 기능을 소개하도록 한다. 불린리덕션 사용자는 불린리덕션이라고 하는 기능을 적용할 수 있다. ○ empty, any(), all(), bool() 등이 메서드들은 불린 결과를 요약하는 기능을 갖추고 있다.각 기능에 대한 설명은 다음과 같다. 다음과 같이 pandas와 numpy를 import시킨 후 예제를 수행하였다. 모듈의 임폴트)# pandas와 numpy의 importIn[2]: import pandas as pdIn[3]: import numpy as np DataFrame.emptyDataFram.. 2020. 4. 19.
객체간의 비교 연산(eq, ne, lt, gt, le, ge, equals)-pandas(25) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 객체간의 비교 연산 본 포스팅에서는 pandas 메서드를 사용하여 객체간의 비교 연산을 수행하는 것에 대해 다루도록 한다. 객체간의 비교연산 Series와 DataFrame은 객체간 비교를 수행할 수 있도록 이항 비교 메서드(binary comparison method)들 가진다. ○ eq, ne, lt, gt, le, ge ○ 이 메서드들은 Fortran유저들이라면 익숙하지 않을까 싶다. ○ 기호로도 사용이 가능하다. 각각의 연산 메서드들의 의미는 다음과 같다. 비교연산 메서드 기호(※) 의미 eq() == 같다 ne() =! 다르다 lt() 크다 le() = 크거나 같다 ※ 기호와 메서드의 차이? A.eq(B)와 A==B는 동일한 연산을 수행.. 2020. 4. 11.
객체간의 연산 add, sub, mul, div-pandas(24) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 객체간의 연산 add, sub, mul, div 본 포스팅에서는 pandas에서 객체간의 연산과 메서드를 통한 누락데이터 처리에 대해 설명한다. 객체간의 연산 pandas와 data structure 간에 연산을 수행하기 위해, 두 가지 중요한 키포인트가 있다. ○ 브로드캐스팅(broadcasting) 거동 ▷ 높은 차원과 낮은 차원객체 간의 연산 수행 시 ○ 계산시 누락데이터(missing data)의 처리 여기서는 위의 이슈들을 어떻게 다루는지 살펴볼 것이다. 연산 메서드 개요DataFrame은 객체간의 이항 연산(binary operation)을 처리하기 위해 다양한 메서드들을 가진다. ○ add(), sub(), mul(), div(), .. 2020. 4. 5.
랜덤 샘플의 추출 및 선택(sample)-pandas(23) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 무작위 샘플 추출을 위한 sample 메서드 본 포스팅에서는 객체내의 임의의 샘플을 선정하여 추출하는 방법에 대해 다룬다. 랜덤 샘플의 추출 pandas에서는 객체내에서 랜덤한 샘플을 추출할 수 있도록 하는 메서드가 존재한다.sample() 메서드를 사용하면 랜덤한 샘플을 추출할 수 있는데 이 메서드는 Series와 DataFrame 둘 다 적용이 가능하다. ○ 이 메서드는 행을 기본값으로 샘플링을 한다.이 메서드에 대한 사용방식은 다음과 같다. sample 메서드의 사용형식)Series.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)DataF.. 2019. 11. 9.
중복데이터의 처리(duplicated, drop_duplicates)-pandas(22) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 중복데이터의 처리 본 포스팅에서는 pandas에서 duplicated 및 drop_duplicates 메서드를 활용하여 중복데이터를 처리하는 방법에 대해 다룬다. 중복 데이터 처리를 위한 메서드 만약 사용자가 DataFrame에서 중복된 열을 확인하거나 제거해야한다면, 아래의 2가지 메서드를 통해 이를 할 수 있다. ○ duplicated: 메서드가 적용된 열과 길이가 동일한 불린 벡터를 반환한다. 그리고 어떤 요소가 중복된 요소인지 확인할 수 있다. ○ drop_duplicates: 중복 요소를 삭제한다. ○ 이 두 메서드는 중복된 요소를 식별하기 위해 열을 입력변수로 사용한다.이 메서드들은 Series, DataFrame, Index객체에 적.. 2019. 11. 6.
인덱스의 설정과 리셋(배정, set_index, reset_index)-pandas(21) 파이썬 버전 3.7 기준pandas 버전 0.25.1 기준 인덱스의 세팅과 재설정 본 포스팅에서는 인덱스를 세팅하고 리셋하는 방법에 대해서 다루도록 한다. 인덱스의 세팅과 재설정 사용자는 경우에 따라서 DataFrame을 작성한 뒤에 인덱스를 새로 만들거나, 수정해야하는 상황이 있을 수 있다.이런 경우에 사용자는 크게 3가지 방법을 통해 인덱스를 설정할 수 있다. ○ DataFrame의 index 및 columns 어트리뷰트에 대한 직접 배정 ○ set_index 메서드의 활용 ○ reset_index 메서드의 활용 배정을 통한 인덱스 설정DataFrame에는 index 및 columns 어트리뷰트를 가지고 있으며, 이 어트리뷰트에 배정이 가능하다. 따라서 단순히 아래 형식과 같이 단순히 각 어트리뷰트에.. 2019. 11. 5.
반응형