학습내용
- Input 굳이 문장, 텍스트여야만 하는가?
- Input 데이터를 연속 벡터 공간(Continious vector space)에 인코딩 하기만 하면, 어떤 Input 데이터든 상관이 없습니다.
- 인코딩 된 벡터는 사람의 눈으로 볼 수 없는 방식으로 중요 요소만 남아있기 때문에 여러 멀티미디어로 확장할 수 있었습니다.
- Image Caption Generation
- Input: 이미지
- Output: 이미지 캡션
- 아키텍쳐:
- 인코더(Encoder): Deep convolution network
- 디코더(Decoder): Recurrent language model + attention machanism
- Video Description Generation
- Input: 동영상 클립(일련의 비디오 프레임)
- Output: 동영상에 대한 설명문장
- 아키텍쳐:
- 인코더(Encoder): Deep 2+3D convolution network
- 디코더(Decoder): Recurrent language model + attention machanism
- Speech recognition
- Input: 스피치(음성 데이터)
- Output: 음성에 대한 자막
- 아키텍쳐:
- 인코더(Encoder): Convolution + recurrent acoustic network
- 디코더(Decoder): Conditional recurrent language model + attention machanism
학습자료
- 출처: [edwith] 딥러닝을 이용한 자연어 처리 : Case Study - Learning to Describe Multimedia - 조경현교수