본문 바로가기
IT 와 Social 이야기/Python

[딥러닝을이용한 자연어 처리 입문] 0203 어간 추출 stemming 과 표제어 추출 Lemmatization

by manga0713 2021. 5. 15.

1. 표제어 추출(Lemmatization)

 

- Lemma는 '표제어' 또는 '기본 사전형 단어' 정도의 의미

- 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단

- 가장 섬세한 방법은 단어의 형태학적 파싱(형태소 분석)을 먼저 진행하는 것

 

 

** 표제어 추출은 해당 단어의 품사 정보를 보존, 어간 추출은 해당 단어의 품사 정보가 보존 되지 않음

 

2. 어간 추출(Stemming)

 

- 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있으므로 이 작업은 섬세한 작업이 아니며 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있음

 

 

nlp_0203 stemming and lemmatization 어간 추출 과 표제어 추출.ipynb
0.01MB

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 0203 어간 추출 stemming 과 표제어 추출 Lemmatization