본문 바로가기

자연어 처리116

[edwith] 딥러닝을 이용한 자연어 처리 : Case Study - Learning to Describe Multimedia - 조경현교수 [LECTURE] Learning to Describe Multimedia : edwith 학습목표 자연어 뿐만 아니라 멀티미디어 컨텐츠로서 기계번역 매커니즘을 확장해봅니다. 핵심키워드 기계 번역(Machine Translation) 연속 벡터 공간(Continious ... - 커넥트재단 www.edwith.org 학습내용 Input 굳이 문장, 텍스트여야만 하는가? Input 데이터를 연속 벡터 공간(Continious vector space)에 인코딩 하기만 하면, 어떤 Input 데이터든 상관이 없습니다. 인코딩 된 벡터는 사람의 눈으로 볼 수 없는 방식으로 중요 요소만 남아있기 때문에 여러 멀티미디어로 확장할 수 있었습니다. Image Caption Generation Input: 이미지 Out.. 2021. 3. 20.
[D2] 모두를 위한 기계번역 - 박찬준님 - 발표영상 - 슬라이드 Mt 모두를 위한 기계번역 (박찬준) ○ 개요 2014년 본격적으로 NMT에 대한 연구가 진행되었으며 현재는 Transformer 기반의 다양한 NMT 시스템들이 연구되고 있습니다. 더 나아가 최근 NLP에서 가장 뜨거운 www.slideshare.net 5. NMT 하위 분야 ○ Automatic Post Editing(APE): 번역문 사후 교정 - 기계 번역 시스템이 생성한 결과물에 포함되어 있는 오류를 수정하여 더 나은 품질의 번역문을 만들어내는 과정 ○ Quality Estimation(QE) - 정답번역문의 참고 없이 기계번역문당의 번역품질을 예측하는 것 ○ Parallel Corpus Filtering - 양질의 Parallel Corpus를 구축하기 위한 작업이며 .. 2021. 3. 19.
[edwith] 딥러닝을 이용한 자연어 처리 : Encoder & Decoder - 조경현교수 [LECTURE] Encoder & Decoder : edwith 학습목표 기계번역의 모델구조와 과정을 살펴봅니다. 핵심키워드 기계번역(Machine Translation) 소스 언어(Source Language) 타겟 언어(Target Lan... - 커넥트재단 www.edwith.org 학습내용 소스 언어와 타겟 언어의 유니크한 단어장을 구축합니다. 토크나이즈(tokenize): 단어 및 쉼표, 마침표 등을 분리하고, 부호를 표준화(통일) 시킵니다. 하위 단어의 세분화(subword segmentation): BPE 인코딩을 통해 하위 단어의 세분화를 진행합니다. 모든 하위 단어를 통합하여 빈도수 내림차순으로 정렬한 뒤 인덱스를 부여합니다. 인코더(Encoder): 소스 문장의 토큰들을 문장을 표현하.. 2021. 3. 19.
[edwith] 딥러닝을 이용한 자연어 처리 : Overview - Neural Machine Translation - 조경현교수 [LECTURE] Overview: a bit of history remark : edwith 학습목표 자연어 처리에서 기계번역 문제를 다뤄보기 전에, 우선 기계번역의 역사를 들어봅니다. 핵심키워드 기계번역(Machine Translation) 룰 기반 기계번역(Rule-b... - 커넥트재단 www.edwith.org 학습내용 신경망 기반 기계번역(Neural Machine Translation): Input: 소스 언어(Source Language), 번역의 원천이 되는 언어 Output: 타겟 언어(Target Language), 번역을 하고자 하는 언어 문제정의: Input 문장이 주어졌을 때, 번역된 문장을 출력하기 때문에 지도학습입니다. Input 문장이 주어졌을때 번역될 문장의 조건부 확률분.. 2021. 3. 19.