본문 바로가기

텍스트 분석22

[edwith] 딥러닝을 이용한 자연어 처리 : Q & A - Text Classification & Sentence Representation - 조경현교수 [LECTURE] Questions : edwith 학습목표 이번 강의 주제인 "Text Classification & Sentence Representation" 에 관련된 질문입니다. 같이 생각하는 시간을 가지면서 배운 지식을 ... - 커넥트재단 www.edwith.org 질문 1. 단어 임베딩에서 다의어(polysemy) 문제는 어떻게 해결하나요? 2. 훈련 데이터에 없는 새로운 단어는 어떻게 표현이 되나요? 3. 분류 모델 훈련 완료후, 새로운 클래스가 등장했을 때 어떻게 해결하나요? 4. 임베딩에서 “가깝다”는 벡터 공간에서 코사인 유사도를 말하는 건가요? 아니면 다른 distance metrics 를 정의해서 사용하나요? 5. Capsule network로 텍스트 분류 문제를 사용하는건 어떤.. 2021. 3. 17.
[edwith] 딥러닝을 이용한 자연어 처리 : Self Attention & RNN - 조경현교수 [LECTURE] Self Attention & RNN : edwith 학습목표 문장을 표현하는 방법중 Self Attention 과 RNN 에 대해서 알아봅니다. 핵심키워드 Self Attention Recurrent Neural Network - 커넥트재단 www.edwith.org 학습내용 지난 시간이 이야기한 CNN 과 RN 의 관계를 살펴보면 아래와 같습니다. RN: 모든 다른 토큰의 관계를 봅니다. 모든 단어간의 관계를 봐서 효율적이지 못합니다. CNN: 작은 범위의 토큰의 관계를 봅니다. 따라서 더 먼 거리의 단어간의 관계가 있을 경우 탐지할 수 없거나 더 많은 convolution 층을 쌓아야합니다. 하지만 CNN 방식을 가중치가 부여된 RN의 일종으로 볼 수도 있습니다. 그렇다면 가중치가.. 2021. 3. 17.
[edwith] 딥러닝을 이용한 자연어 처리 : CBoW & RN & CNN - 조경현교수 [LECTURE] CBoW & RN & CNN : edwith 학습목표 문장을 표현하는 방법중 CBoW, RN, CNN 에 대해서 알아봅니다. 핵심키워드 문장표현(Sentence representation) Continuous bag-of-w... - 커넥트재단 www.edwith.org 학습내용 문장표현(Sentence representation)의 의미: 어떤 과제를 풀기에 적합하고 숫자로 나타낸 문장의 표현입니다 CBoW(Continuous bag-of-words): 단어장을 단어 주머니로 보게되고, 이에 따라 단어의 순서는 무시합니다. 문장에 대한 표현은 단어 벡터들을 평균시킨 벡터로 구합니다. 효과가 좋기 때문에 제일 먼저 시도해봐야합니다. (Baseline 모델) 공간상에서 가까우면 비슷한 의.. 2021. 3. 17.
[edwith] 딥러닝을 이용한 자연어 처리 : How to represent sentence & token? - 조경현교수 [LECTURE] How to represent sentence & token? : edwith 학습목표 문장을 어떻게 컴퓨터 언어로 표현할지 배웁니다. 핵심키워드 토큰(tokens) 단어장(Vocabulary) 인코딩(Encoding) 연속 벡터 공간(Continuous v... - 커넥트재단 www.edwith.org 학습내용 문장은 일련의 토큰(tokens)으로 구성되어 있습니다. 텍스트 토큰은 주관적, 임의적(arbitrary)인 성격을 띄고 있습니다. 토큰을 나누는 기준은 다양합니다. 공백(White space) 형태소(Morphs) 어절 비트숫자 컴퓨터에게 단어를 숫자로 표현하기 위해서, 단어장(Vocabulary)을 만들고, 중복되지 않는 인덱스(index) 로 바꿉니다. 궁극적으로 모든 문.. 2021. 3. 17.