본문 바로가기

데이터프레임7

[데이터 사이언스 스쿨] 4.8 시계열 자료 다루기 ● DatetimeIndex 시계열 자료는 인덱스가 날짜 혹은 시간인 데이터를 말한다. 판다스에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 만들어야 한다. DatetimeIndex 인덱스는 다음과 같은 보조 함수를 사용하여 생성한다. pd.to_datetime 함수 pd.date_range 함수 ● shift 인덱스는 그대로 두고 데이터만 이동할 수도 있다. ● resample 시간 간격을 재조정 up-sampling: 시간 구간이 작아지면 데이터 양이 증가 down-sampling: 시간 구간이 커지면 데이터 양이 감소 날짜가 아닌 시/분 단위에서는 구간위 왼쪽 한계값(가장 빠른 값)은 포함하고 오른쪽 한계값(가장 늦은 값)은 포함하지 않는다. 즉, 가장 늦은 값은 다음 구.. 2021. 4. 28.
[데이터 사이언스 스쿨] 4.6 데이터프레임 합성 ● 데이터프레임 합성 두 개 이상의 데이터프레임을 하나로 합치는 것. 데이터 병합(merge)이나 연결(concatenate) ● Concatenation 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate) 기본적으로는 위/아래로 데이터 행을 연결한다. 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다. - 출처 : [데이터 사이언스 스쿨] 4.6 데이터프레임 합성 2021. 4. 28.
[데이터 사이언스 스쿨] 4.5 데이터프레임 인덱스 조작 ● 데이터프레임 인덱스 설정 및 제거 set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정 reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가 ● 다중 인덱스(multi-index) 행이나 열에 여러 계층을 가지는 인덱스 ● 행 인덱스와 열 인덱스 교환 stack: 열 인덱스 -> 행 인덱스로 변환 unstack: 행 인덱스 -> 열 인덱스로 변환 ● 다중 인덱스가 있는 데이터프레임의 인덱싱 인덱스 값이 ()로 둘러싸인 튜플이 되어야 한다. ● 다중 인덱스의 인덱스 순서 변경 swaplevel(i, j, axis) i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. 디폴트.. 2021. 4. 28.
[데이터 사이언스 스쿨] 4.4 데이터프레임의 데이터 조작 판다스는 넘파이 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다. ● 카테고리 값 세기 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다. ● 정렬 sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다. ● 행/열 합계 sum(axis) 메서드 사용. axis 인수에는 방향축(0=행, 1=열)을 지정한다. ● apply 변환 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다. ● fillna : NaN 값을 원하는 값으로 변경 ● astype : 전체 데이터의 자료형 변.. 2021. 4. 27.