본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 4.4 데이터프레임의 데이터 조작

by manga0713 2021. 4. 27.

[ 이미지 출처 : geeksforgeeks.org - Creating a Pandas DataFrame ]

 

 

판다스는 넘파이 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.

 

 

 

 

● 카테고리 값 세기

 

시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

 

 

 

● 정렬

 

sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다.

 

 

 

 

● 행/열 합계

 

sum(axis) 메서드 사용. axis 인수에는 방향축(0=행, 1=열)을 지정한다.

 

 

 

 

● apply 변환

 

행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다.

 

 

 

● fillna : NaN 값을 원하는 값으로 변경

 

 

 

● astype : 전체 데이터의 자료형 변경

 

 

 

실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때

 

  • cut: 실수 값의 경계선을 지정하는 경우
  • qcut: 갯수가 똑같은 구간으로 나누는 경우

 

 

dss4_4_dataframe data manipulation.ipynb
0.04MB

 

 

- 출처: [데이터 사이언스 스쿨] 4.4 데이터프레임의 데이터 조작