- Lemma는 '표제어' 또는 '기본 사전형 단어' 정도의 의미
- 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단
- 가장 섬세한 방법은 단어의 형태학적 파싱(형태소 분석)을 먼저 진행하는 것
** 표제어 추출은 해당 단어의 품사 정보를 보존, 어간 추출은 해당 단어의 품사 정보가 보존 되지 않음
2. 어간 추출(Stemming)
- 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있으므로 이 작업은 섬세한 작업이 아니며 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있음
- 출처 : [딥러닝을이용한 자연어 처리 입문] 0203 어간 추출 stemming 과 표제어 추출 Lemmatization
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[SQLite3로 가볍게 배우는 데이터베이스:SQL 기초 실습] 따라하기 A02 (0) | 2021.06.09 |
---|---|
[딥러닝을이용한 자연어 처리 입문] 0204 불용어 Stopword (0) | 2021.05.15 |
참된 스승 (0) | 2021.05.15 |
[데이터 사이언스 스쿨] 그래프 이론 기초 Graph theory basic (0) | 2021.05.14 |
[데이터 사이언스 스쿨] Affinity Propagation 선호도 전파 (0) | 2021.05.14 |