fasttext3 [딥러닝을이용한 자연어 처리 입문] 1006 패스트텍스트(FastText) FastText는 하나의 단어 안에도 여러 단어들이 존재하는 것(각 단어를 글자 단위 n-gram의 구성으로 취급)으로 간주함. 즉 내부 단어(subword)를 고려하여 학습을 진행 1. 내부 단어(subword)의 학습 - n-gram의 n을 3으로 잡은 경우 apple , : (끝), (특별 토큰) - 내부 단어들을 벡터화한다는 의미는 저 단어들에 대해서 Word2Vec을 수행한다는 의미 2. 모르는 단어(Out Of Vocabulary, OOV)에 대한 대응 - 학습 후 모든 데이터 셋의 모든 단어의 각 n-gram에 대해 워드 임베딩이 되므로 데이터 셋만 충분하다면 내부단어를 통해 OOV에 대해서도 다른 단어와의 유사도를 계산할 수 있음 3. 단어 집합 내 빈도 수가 적었던 단어(Rare Word.. 2021. 5. 21. [KoreaUniv DSBA] 논문리뷰 - FastText: Enriching Word Vectors with Subword Information - 김수빈님 - 발표영상 ★ Contents : 00:37 Overview 01:10 Prerequisite 04:24 Paper Review 19:44 Summary 20:15 Comments 2021. 3. 23. [KoreaUniv DSBA] 강필성 교수: 05_Text_Representation II_Distributed_Representation_Part_3_Kor Unstructured Data Analysis 05_Text_Representation_II_Distributed Representation_Part_3_Kor - GloVe - FastText https://github.com/pilsung-kang/text-... 2021. 3. 2. 이전 1 다음