본문 바로가기

자연어 처리116

[DSBA] Paper Review : Semi-Supervised Text Classification with Balanced Deep Representation Distributions 2021. 11. 21.
[IITP] 방송콘텐츠 및 메타데이터에 특화된 기계번역 - 출처 : [IITP] 방송콘텐츠 및 메타데이터에 특화된 기계번역 - 지용훈 (주)시스트란 부장 1. 기술의 개념 - 동영상 다국어 자막 자동생성(번역) 서비스 지원 특화 기계번역 - 다국어 시맨틱 자원 기반 OTT 콘텐츠 장면 검색 서비스 지원 특화 기계번역 - 개발목표시기 : 2024. 12 2. 기술 우수성 및 차별성 - 시맨틱 특성을 고려한 맥락 이해 기반 번역(Context Awareness Translation) 기술 적용으로 동영상 메타데이터에 최적화된 번역결과를 제공 - 사용자 사전(User Dictionary)과 번역 메모리(Translation Memory) 등록 및 관리 기능 지원을 통해 특정 용어 및 문장에 관한 품질 이슈에 사용자가 실시간으로 대응 3. 시장성 - 미디어 콘텐츠 .. 2021. 11. 15.
[KISDI] 언어장벽 없는 세상 실현을 위한 AI 자동 통역 발전 동향 - 출처 : [KISDI] 언어장벽 없는 세상 실현을 위한 AI 자동 통역 발전 동향 - 한국전자통신연구원 김상훈 책임연구원 ○ 정의 및 활용 분야 AI를 활용한 자동 통역 기술은 여러 인공지능으로 구성된 복합지능 기술이며 인간의 의사소통 능력을 증강하는 초지능 기술 - 자동 통역 기술은 청각지능, 언어지능, 학습지능 등 인간의 다양한 지능을 모방하는 복합지능 기술이며, 인간의 인지 이해 능력을 증강하는 초지능 기술 - 자동 통역 시스템은 음성인식, 자동번역, 음성합성 기술로 구성 ○ 자동 통역 산업 전망 - 시장 조사기관인 Research and Marketst사는 자동 통역 글로벌 시장(엔진만 고려)이 ’21~’26년 동안 3.3억불에서 5.7억불로 CAGR 9.4% 성장할 것으로 예측하면서, 여행,.. 2021. 11. 6.
자연어 처리 논문 리뷰 : [나동빈] 딥러닝 기반의 최신 언어 모델(GPT)의 개인정보 유출 문제: Extracting Training Data from Large Language Models ● 리뷰하신 나동빈님의 설명 요약 - 오늘 영상에서 다루는 논문은 GPT-2처럼 큰 언어 모델(large language model)에서 학습 데이터(training data)를 추출하는 공격 방법을 제안합니다. - 본 논문은 2020년 12월에 출간되었으며, 다양한 AI 서비스에서 널리 쓰이고 있는 "학습된 GPT-2 네트워크로부터 해당 네트워크가 학습 당시에 사용했던 개인정보가 포함된 학습 데이터"를 추출하는 것이 가능함을 보였습니다. - 본 논문에서 제안한 메서드는 언어 모델을 기반으로 하는 서비스가 배포되기 전에, 모델의 취약점을 분석하기 위한 목적으로 효과적으로 사용될 수 있습니다. ● 학습 기대 효과 ① 딥러닝 기반의 큰 언어 모델에 대한 개인정보 추출 공격 방법을 이해할 수 있습니다. ② 언.. 2021. 6. 30.