본문 바로가기

자연어 처리116

[edwith] 딥러닝을 이용한 자연어 처리 : How to represent sentence & token? - 조경현교수 [LECTURE] How to represent sentence & token? : edwith 학습목표 문장을 어떻게 컴퓨터 언어로 표현할지 배웁니다. 핵심키워드 토큰(tokens) 단어장(Vocabulary) 인코딩(Encoding) 연속 벡터 공간(Continuous v... - 커넥트재단 www.edwith.org 학습내용 문장은 일련의 토큰(tokens)으로 구성되어 있습니다. 텍스트 토큰은 주관적, 임의적(arbitrary)인 성격을 띄고 있습니다. 토큰을 나누는 기준은 다양합니다. 공백(White space) 형태소(Morphs) 어절 비트숫자 컴퓨터에게 단어를 숫자로 표현하기 위해서, 단어장(Vocabulary)을 만들고, 중복되지 않는 인덱스(index) 로 바꿉니다. 궁극적으로 모든 문.. 2021. 3. 17.
[D2] 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? - 이현구님 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? SQuAD가 공개되고 널리 알려지면서 기계독해(Machine Reading Comprehension)가 각광받기 시작했습니다. SQuAD란 스탠포드대에서 만든, 기계가 주어진 문서를 읽고 그와 관련된 질문을 할 경우 정답을 찾아 www.slideshare.net ○ 모델들의 공통적인 구조 - Encoder : 질의와 문맥을 벡터로 표현 - Co-attention : 상호 Attention을 통해 문맥과 질의 간의 관계 파악 - Output : 질문에 해당하는 정답 단어의 시작과 끝 위치 출력 ○ 학습 방법 - Negative Log Probability - REINFORCE Algorithm ○ 어디까지 왔나? - 사람과 유사, 혹은 더욱 잘하게 .. 2021. 3. 16.
[KoreaUniv DSBA] 강필성 교수: 06_Dimensionality_Reduction_Part_1_Kor Unstructured Data Analysis 06_Dimensionality_Reduction_Part_1_Kor - Supervised/Unsupervised dimensionality reduction - Feature Selection/Extraction - Filter/Wrapper approach https://github.com/pilsung-kang/text-... 2021. 3. 3.
[KoreaUniv DSBA] 강필성 교수: 05_Text_Representation_II_Distributed Representation_Part_1_Kor Unstructured Data Analysis 05_Text_Representation_II_Distributed Representation_Part_1_Kor - Neural Network Language Model (NNLM) github.com/pilsung-kang/text-analytics 2021. 3. 1.