dataframe8 [데이터 사이언스 스쿨] 4.8 시계열 자료 다루기 ● DatetimeIndex 시계열 자료는 인덱스가 날짜 혹은 시간인 데이터를 말한다. 판다스에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 만들어야 한다. DatetimeIndex 인덱스는 다음과 같은 보조 함수를 사용하여 생성한다. pd.to_datetime 함수 pd.date_range 함수 ● shift 인덱스는 그대로 두고 데이터만 이동할 수도 있다. ● resample 시간 간격을 재조정 up-sampling: 시간 구간이 작아지면 데이터 양이 증가 down-sampling: 시간 구간이 커지면 데이터 양이 감소 날짜가 아닌 시/분 단위에서는 구간위 왼쪽 한계값(가장 빠른 값)은 포함하고 오른쪽 한계값(가장 늦은 값)은 포함하지 않는다. 즉, 가장 늦은 값은 다음 구.. 2021. 4. 28. [데이터 사이언스 스쿨] 4.7 피봇테이블과 그룹분석 ● 피봇테이블(pivot table) 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다. 판다스는 지정된 두 열을 각각 행 인덱스와 열 인덱스로 바꾼 후 행 인덱스의 라벨 값이 첫번째 키의 값과 같고 열 인덱스의 라벨 값이 두번째 키의 값과 같은 데이터를 찾아서 해당 칸에 넣는다. 만약 주어진 데이터가 존재하지 않으면 해당 칸에 NaN 값을 넣는다. ● 그룹분석 (group analysis) 키가 지정하는 조건에 맞는 데이터가 그룹을 이루는 경우, 미리 지정한 연산을 통해 해당 그룹 데이터의 대표값을 계산한다. - groupby 열 또는 열의 리스트 행 인덱스 size, count: 그룹 데이터의 갯수 mean, median, min, max:.. 2021. 4. 28. [데이터 사이언스 스쿨] 4.6 데이터프레임 합성 ● 데이터프레임 합성 두 개 이상의 데이터프레임을 하나로 합치는 것. 데이터 병합(merge)이나 연결(concatenate) ● Concatenation 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate) 기본적으로는 위/아래로 데이터 행을 연결한다. 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다. - 출처 : [데이터 사이언스 스쿨] 4.6 데이터프레임 합성 2021. 4. 28. [데이터 사이언스 스쿨] 4.5 데이터프레임 인덱스 조작 ● 데이터프레임 인덱스 설정 및 제거 set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정 reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가 ● 다중 인덱스(multi-index) 행이나 열에 여러 계층을 가지는 인덱스 ● 행 인덱스와 열 인덱스 교환 stack: 열 인덱스 -> 행 인덱스로 변환 unstack: 행 인덱스 -> 열 인덱스로 변환 ● 다중 인덱스가 있는 데이터프레임의 인덱싱 인덱스 값이 ()로 둘러싸인 튜플이 되어야 한다. ● 다중 인덱스의 인덱스 순서 변경 swaplevel(i, j, axis) i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. 디폴트.. 2021. 4. 28. 이전 1 2 다음