본문 바로가기

기계번역14

[edwith] 딥러닝을 이용한 자연어 처리 : Case Study - QnA - 조경현교수 [LECTURE] Questions : edwith 학습목표 각각의 Case Study 에서 나온 질문들입니다. 같이 생각하는 시간을 가지면서 배운 지식을 공고히 다집니다. 질문 1. Mutlilingual Translation를 ... - 커넥트재단 www.edwith.org 질문 1. Mutlilingual Translation을 훈련하기 위해서 얼마나 많은 데이터가 필요하나요? 2. Character token embedding 에서 숫자를 어떻게 처리하나요? 3. Character level 임베딩 차원은 어떤 크기로 정해야 하나요? 4. 단어에 “성별” 의미가 없는 언어에서 내포된 언어로 번역할때 발생하는 문제점은 어떻게 해결 하나요? 5. Universal linguistic semantic .. 2021. 3. 20.
[edwith] 딥러닝을 이용한 자연어 처리 : Case Study - Real-Time Translation Learning to Decode - 조경현교수 [LECTURE] Real-Time Translation Learning to Decode : edwith 학습목표 Decoding 하는 방법을 고민해보고, 동시통역 대해서 공부합니다. 핵심키워드 완전탐색 (Exhaustive Search, Brute-force search) Ances... - 커넥트재단 www.edwith.org 학습내용 Decoding 완전탐색 (Exhaustive Search, Brute-force search): 가능한 경우를 모두 구해서 문제의 해결 방법을 찾는 것입니다. 문제점: 물리적으로 불가능합니다. Ancestral Sampling, Forward Sampling: 문제점: 샘플을 많이 뽑아야하고, variance 가 높습니다. 그리디 탐색(Greedy Search): .. 2021. 3. 20.
[edwith] 딥러닝을 이용한 자연어 처리 : Case Study - Meta-Learning of Low-Resource Neural Machine Translation - 조경현교수 [LECTURE] Meta-Learning of Low-Resource Neural Machine Translation : edwith 학습목표 메타학습을 활용한 멀티 태스킹 학습을 공부합니다. 핵심키워드 멀티 태스킹 학습(MultiTask Learning) 다중언어 기계번역(Multilingual Translat... - 커넥트재단 www.edwith.org 학습내용 MultiTask Learning 문제점: 적은 데이터(low-resource)에 대해서는 과적합(overfiting) 되는데, 풍부한 데이터(high-resource)에 대해서는 과소적합(underfiting) 되는 현상이 있습니다. 극히 적은 데이터는 무시하는 경향이 있었습니다. 다중언어 기계번역(Multilingual Translat.. 2021. 3. 20.
[edwith] 딥러닝을 이용한 자연어 처리 : Case Study - Fully Character-Level Machine Translation - 조경현교수 [LECTURE] Fully Character-Level Machine Translation : edwith 학습목표 글자 단위의 기계번역을 학습합니다. 또한 실험결과를 통해 다중언어 기계번역으로 확장시킵니다. 핵심키워드 기계 번역(Machine Translation) 형태(morphol... - 커넥트재단 www.edwith.org 학습내용 왜 (하위)단어 단위((sub)word-level)의 모델링은 힘들까요? 형태(morphology)가 풍부한 언어는 단어수가 많아지기 때문에 다루기 어렵습니다. 특히 합성어가 많을 경우 더 어렵습니다. 줄임말, 오타를 다루기 어렵습니다. 정보량이 다른 토큰에 같은 파라미터를 부여하기 때문에, 모델링이 효율적이지 못합니다. 글자 단위 모델링(Character-leve.. 2021. 3. 20.