본문 바로가기

NLP107

[데이터 사이언스 스쿨] ml3.1 NLTK 자연어 처리 패키지 ○ NLTK(Natural Language Toolkit) 패키지는 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 패키지다. ○ 말뭉치(corpus) : 자연어 분석 작업을 위해 만든 샘플 문서 집합을 말한다. - 단순히 소설, 신문 등의 문서를 모아놓은 것도 있지만 품사, 형태소 등의 보조적 의미를 추가하고 쉬운 분석을 위해 구조적인 형태로 정리해 놓은 것을 포함한다. - NLTK의 말뭉치 자료는 설치시에 제공되지 않고 download 명령으로 사용자가 다운로드 받아야 한다. ○ 토큰(token) 생성 자연어 문서를 분석하기 위해서는 우선 긴 문자열을 분석을 위한 작은 단위로 나누어야 한다. 이 문자열 단위를 토큰(token)이라고 하고 이렇게 문자열을 토큰으로 나누는 작업을 토큰 생성(toke.. 2021. 5. 6.
[딥러닝논문읽기모임] Extracting Training Data from Large Language Models - 자연어처리 팀: 김은희, 박희수, 신동진 2021. 4. 14.
[KoreaUniv DSBA] 논문리뷰 - Improving Language Understanding by Generative Pre-Training - 이윤승님 ★ 출처: [KoreaUniv DSBA] 논문리뷰 - Improving Language Understanding by Generative Pre-Training - 이윤승님 2021. 4. 1.
[[Paper Review] 논문리뷰 - SOM-DST : Efficient Dialogue State Tracking by Selectively Overwriting Memory - 이유경님 - 목차 ○ Overview ○ SOM-DST Model 1) State Operation Predictor 2) Slot Value Generator 3) Objective Function - 발표영상 ** SOM-DST Clova AI (Naver)에서 제안한 모델 2021. 3. 23.