판다스는 넘파이 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.
● 카테고리 값 세기
시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.
● 정렬
sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다.
● 행/열 합계
sum(axis) 메서드 사용. axis 인수에는 방향축(0=행, 1=열)을 지정한다.
● apply 변환
행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다.
● fillna : NaN 값을 원하는 값으로 변경
● astype : 전체 데이터의 자료형 변경
● 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때
- cut: 실수 값의 경계선을 지정하는 경우
- qcut: 갯수가 똑같은 구간으로 나누는 경우
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] 4.6 데이터프레임 합성 (0) | 2021.04.28 |
---|---|
[데이터 사이언스 스쿨] 4.5 데이터프레임 인덱스 조작 (0) | 2021.04.28 |
[데이터 사이언스 스쿨] 4.3 데이터프레임 고급 인덱싱 (0) | 2021.04.27 |
[데이터 사이언스 스쿨] 4.2 판다스 데이터 입출력 (0) | 2021.04.27 |
[데이터 사이언스 스쿨] 4.1 판다스 패키지 소개 (0) | 2021.04.27 |