본문 바로가기

NLP107

[edwith] 딥러닝을 이용한 자연어 처리 : CBoW & RN & CNN - 조경현교수 [LECTURE] CBoW & RN & CNN : edwith 학습목표 문장을 표현하는 방법중 CBoW, RN, CNN 에 대해서 알아봅니다. 핵심키워드 문장표현(Sentence representation) Continuous bag-of-w... - 커넥트재단 www.edwith.org 학습내용 문장표현(Sentence representation)의 의미: 어떤 과제를 풀기에 적합하고 숫자로 나타낸 문장의 표현입니다 CBoW(Continuous bag-of-words): 단어장을 단어 주머니로 보게되고, 이에 따라 단어의 순서는 무시합니다. 문장에 대한 표현은 단어 벡터들을 평균시킨 벡터로 구합니다. 효과가 좋기 때문에 제일 먼저 시도해봐야합니다. (Baseline 모델) 공간상에서 가까우면 비슷한 의.. 2021. 3. 17.
[edwith] 딥러닝을 이용한 자연어 처리 : How to represent sentence & token? - 조경현교수 [LECTURE] How to represent sentence & token? : edwith 학습목표 문장을 어떻게 컴퓨터 언어로 표현할지 배웁니다. 핵심키워드 토큰(tokens) 단어장(Vocabulary) 인코딩(Encoding) 연속 벡터 공간(Continuous v... - 커넥트재단 www.edwith.org 학습내용 문장은 일련의 토큰(tokens)으로 구성되어 있습니다. 텍스트 토큰은 주관적, 임의적(arbitrary)인 성격을 띄고 있습니다. 토큰을 나누는 기준은 다양합니다. 공백(White space) 형태소(Morphs) 어절 비트숫자 컴퓨터에게 단어를 숫자로 표현하기 위해서, 단어장(Vocabulary)을 만들고, 중복되지 않는 인덱스(index) 로 바꿉니다. 궁극적으로 모든 문.. 2021. 3. 17.
[edwith] 딥러닝을 이용한 자연어 처리 : Text Classification & Sentence Representation - Overview - 조경현교수 [LECTURE] Overview : edwith 학습목표 자연어 처리에서 텍스트 분류 문제를 다뤄봅니다. 핵심키워드 텍스트 분류(Text Classification) 문장표현(Sentence Representation) - 커넥트재단 www.edwith.org 학습내용 텍스트 분류(Text Classification): 문장, 문단 또는 글을 어떤 카테고리에 분류하는 작업을 텍스트 분류라고 합니다. 텍스트 분류는 지도학습입니다. Input: 하나의 문장, 문단 혹은 문서 Output: 유한한 C 개의 카테고리 예시 감성 분석 카테고리 분류 의도 분류 - 출처: [edwith] 딥러닝을 이용한 자연어 처리 : Text Classification & Sentence Representation - Overv.. 2021. 3. 17.
[D2] 한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 - 김명지, 임승영 님 - Slide 한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 평문 Q&A 뿐 아니라 구조화된 문서에 대한 Q&A를 위해 TableQA, TreeQA 모델이 나오게 된 배경 및 차이점 등 LG CNS 연구 내용을 간략히 소개하고, 이를 위한 작업의 일환으로 제작했던 KorQuAD dataset 상세 www.slideshare.net - 발표 영상 ○ 영문 데이터셋 - SQuAD : Extractive MRC - MS MARCO : Generative MRC - HotPotQA : Multi hop MRC ○ 한글 데이터셋 - KorQuAD : korquad/korquad.github.io Korean wiki QA dataset for MRC. Contr.. 2021. 3. 17.