본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 4.1 판다스 패키지 소개

by manga0713 2021. 4. 27.

[ 이미지 출처 : https://dandyrilla.github.io - 판다스 기본 사용법 익히기 ]

 

[ 이미지 출처 : pbpython.com - Overview of Pandas Data Types ]

 

 

대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있다. 판다스(Pandas) 패키지는 이러한 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다.

 

 

● 시리즈 클래스

 

시리즈 = 값(value) + 인덱스(index)

 

데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 이 때 인덱스의 길이는 데이터의 길이와 같아야 한다.

 

인덱스의 값을 인덱스 라벨(label)이라고도 한다. 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.

 

 

 

 

 

● 시리즈 연산

 

벡터화 연산을 할 수 있다. 다만 연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다.

 

 

 

● 시리즈 인덱싱, 슬라이싱

 

넘파이 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있다.

 

 

 

 

 

 

● 시리즈와 딕셔너리 자료형

 

시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다. 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

 

 

● 인덱스 기반 연산

 

두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터에 대해서만 차이를 구한다.

 

 

 

 

● 데이터의 갱신, 추가, 삭제

 

인덱싱을 이용하여 갱신, 추가, 삭제 실행

 

 

 

● 데이터프레임 클래스

 

데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷

 

- 데이터프레임 클래스 생성 방법

 

  1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
  2. 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.
  3. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다.

 

 

 

 

dss4_1_pandas intro.ipynb
0.04MB

 

 

- 출처: [데이터 사이언스 스쿨] 4.1 판다스 패키지 소개