어간 추출1 [딥러닝을이용한 자연어 처리 입문] 0203 어간 추출 stemming 과 표제어 추출 Lemmatization 1. 표제어 추출(Lemmatization) - Lemma는 '표제어' 또는 '기본 사전형 단어' 정도의 의미 - 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단 - 가장 섬세한 방법은 단어의 형태학적 파싱(형태소 분석)을 먼저 진행하는 것 어간(stem) : 단어의 의미를 담고 있는 핵심 부분 접사(affix) : 단어에 추가적인 의미를 주는 부분 ** 표제어 추출은 해당 단어의 품사 정보를 보존, 어간 추출은 해당 단어의 품사 정보가 보존 되지 않음 2. 어간 추출(Stemming) - 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있으므로 이 작업은 섬세한 작업이 .. 2021. 5. 15. 이전 1 다음