본문 바로가기

텍스트 전처리9

[딥러닝을이용한 자연어 처리 입문] 02. 텍스트 전처리 Text preprocessing 1. 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 2. 정제(Cleaning)와 정규화(Nomalization) 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 3. 어간 추출(Stemming)과 표제어 추출(Lemmatization) 정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법으로 의미는 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면.. 2021. 5. 15.

이전 1 2 3 다음

티스토리툴바