본문 바로가기

데이터 전처리5

[데이터 사이언스 스쿨] ml5.1 Scikit-Learn의 문서 전처리 기능 ○ BoW(Bag of Words) 인코딩 문서를 숫자 벡터로 변환하는 가장 기본적인 방법으로 전체 문서 {d1,d2,…,dn}를 구성하는 고정된 단어장(vocabulary) {t1,t2,…,tm}를 만들고 di라는 개별 문서에 단어장에 해당하는 단어들이 포함되어 있는지를 표시하는 방법이다. (없으면 0, 있으면 1) ○ Scikit-Learn 문서 전처리 기능 DictVectorizer: 각 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다. CountVectorizer: 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다. TfidfVectorizer: CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를.. 2021. 5. 7.
[데이터 사이언스 스쿨] ml2.2 범주형 데이터 처리 ○ 범주형 데이터(category data) : 종류를 표시하는 데이터 ○ 범주형 데이터의 변형 : 대부분의 데이터 분석 모형은 숫자만 입력으로 받을 수 있기 때문에 범주형 데이터는 숫자로 변환해야 한다. 더미변수화 카테고리 임베딩 ○ 더미변수화 : 더미변수(dummy variable)는 0 또는 1만 가지는 값으로 어떤 특징이 존재하는가 존재하지 않는가를 표시한다. 다음과 같은 명칭으로 불린다. 이진지시자(Boolean indicator) 이진변수(binary variable) 지시변수(indicator variable) 설계변수(design variable) 처치(treatment) ○ 카테고리값을 더미변수화하면 복수의 더미변수 벡터로 표시한다. ○ 축소랭크 방식 지금까지 설명한 더미변수 방식을 풀랭.. 2021. 5. 6.
[데이터 사이언스 스쿨] ml2.1 데이터 전처리 기초 ○ missingno 패키지 : pandas 데이터프레임에서 결측(missing) 데이터를 찾는 기능을 제공 - 데이터프레임에 결측 데이터가 NaN(not a number) 값으로 저장되어 있어야 한다. - 주의할 점은 NaN값은 부동소수점 실수 자료형에만 있는 값이므로 정수 자료를 데이터프레임에 넣을 때는 Int64Dtype 자료형을 명시해주어야 하고 시간 자료형을 넣을 때도 parse_dates 인수로 날짜시간형 파싱을 해주어야 datetime64[ns] 자료형이 되어 결측 데이터가 NaT(not a time) 값으로 표시된다. ○ 결측 데이터 처리 결측된 데이터가 너무 많은 경우 해당 데이터 열 전체를 삭제할 수 있다. 결측된 데이터가 일부인 경우 가장 그럴듯한 값으로 대체할 수 있다. 이를 결측 .. 2021. 5. 6.
[이수안컴퓨터연구소] OpenRefine - 데이터 탐색, 정제, 변환을 도와주는 막강한 전처리 도구 *** OpenRefine 사용법 - 데이터 탐색, 정제, 변환 등 데이터 전처리 도구- 공공데이터를 사용하여 실제 데이터 전처리 따라하기 2020. 7. 15.