본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] ml4.1 KoNLPy 한국어 처리 패키지

by manga0713 2021. 5. 6.

○ 한국어 말뭉치

 

KoNLPy에서는 대한민국 헌법 말뭉치인 kolaw와 국회법안 말뭉치인 kobill을 제공한다. 각 말뭉치가 포함하는 파일의 이름은 fields 메서드로 알 수 있고 open 메서드로 해당 파일의 텍스트를 읽어들인다.

 

 

 

○ 형태소 분석

 

- Hannanum: 한나눔. KAIST Semantic Web Research Center 개발

- Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발

- Komoran: 코모란. Shineware에서 개발

- Mecab: 메카브. 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정

- Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기

 

 

dss_ml4_1_konlpy 한국어 처리 패키지.ipynb
0.03MB

 

- 출처 : [데이터 사이언스 스쿨] ml4.1 KoNLPy 한국어 처리 패키지