본문 바로가기

PANDAS24

[데이터 사이언스 스쿨] 4.5 데이터프레임 인덱스 조작 ● 데이터프레임 인덱스 설정 및 제거 set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정 reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가 ● 다중 인덱스(multi-index) 행이나 열에 여러 계층을 가지는 인덱스 ● 행 인덱스와 열 인덱스 교환 stack: 열 인덱스 -> 행 인덱스로 변환 unstack: 행 인덱스 -> 열 인덱스로 변환 ● 다중 인덱스가 있는 데이터프레임의 인덱싱 인덱스 값이 ()로 둘러싸인 튜플이 되어야 한다. ● 다중 인덱스의 인덱스 순서 변경 swaplevel(i, j, axis) i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. 디폴트.. 2021. 4. 28.
[데이터 사이언스 스쿨] 4.4 데이터프레임의 데이터 조작 판다스는 넘파이 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다. ● 카테고리 값 세기 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다. ● 정렬 sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다. ● 행/열 합계 sum(axis) 메서드 사용. axis 인수에는 방향축(0=행, 1=열)을 지정한다. ● apply 변환 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다. ● fillna : NaN 값을 원하는 값으로 변경 ● astype : 전체 데이터의 자료형 변.. 2021. 4. 27.
[데이터 사이언스 스쿨] 4.3 데이터프레임 고급 인덱싱 데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다. Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원한다. loc : 라벨값 기반의 2차원 인덱싱 : df.loc[행 인덱싱값] 또는 df.loc[행 인덱싱값, 열 인덱싱값] iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 : df.iloc[행 인덱싱값, 열 인덱싱값] ★★★ loc 인덱서가 없는 경우에 사용했던 라벨 인덱싱이나 라벨 리스트 인덱싱은 불가능하다. ● iloc 순서를 나타내는 정수(integer) 인덱스만 받는다. - 출처: [데이터 사이언스 스쿨] 4.3 데이터프레임 고급 인덱싱 2021. 4. 27.
[데이터 사이언스 스쿨] 4.2 판다스 데이터 입출력 ● Pandas는 데이터 파일을 읽어 데이터프레임을 만들 수 있다. 위 이미지와 같이 여러가지 포맷을 지원한다. ● CSV 파일 pandas.read_csv ● 데이터프레임 값을 CSV 파일로 출력할 때 to_csv ● 인터넷 상의 CSV 파일 입력 파일 패스 대신 URL을 지정 ● 인터넷 상의 데이터베이스 입력 pandas_datareader 패키지의 DataReader 을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다. 그 외는 잘 찾아 데이터의 사용법대로 읽어오면 된다. - 출처: [데이터 사이언스 스쿨] 4.2 판다스 데이터 입출력 2021. 4. 27.