본문 바로가기

IT 와 Social 이야기/NLP 자연어처리168

인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback) ● 강화학습(Reinforcement Learning) - 학습 데이터가 주어진 상태에서 변화가 없는 정적인 환경에서 진행되는 지도 학습이나 비지도 학습과 달리 불확실한 환경과 상호작용을 통해 주어진 업무를 학습 - 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태를 관찰하며 선택할 수 있는 행동(action) 중 최대의 보상(reward)을 가져다주는 행동이 무엇인지 학습 ● 강화학습의 동작 순서 - 정의된 주체(agent)가 주어진 환경(environment)의 현재 상태(state)를 관찰(observation)하여, 행동 (action) 수행 → 환경의 상태가 변화하면서 정의된 주체에게 보상(reward) → 보상을 기반으로 정의된 주체는 더 많은 보상을 얻을 수 있는 방향(best act.. 2023. 4. 23.
[딥러닝논문읽기모임] 2021 AAAI - MERL : Multimodal Event Representation Learning in Heterogeneous Embedding Spaces - 어떤 하나의 사건을 Embedding 공간안에 표현하는 방법으로 학습을 시키는 방법론, Event Representation 방법을 통해 학습을 하는 방법에 대해 소개 - 하나의 문장을, 주어 동사 목적어가 동일한 세개의 문장으로 표현하고, 해당 문장들로 학습을 시켰을때 매우 극적으로 성능향상이 이루어지는것을 확인 2021. 12. 2.
[딥러닝논문읽기모임]2021 EMNLP paper explained : Enhancing Code Summarization with Hierarchical Splitting ○ Code Summarization - 소스코드를 간결한 자연어로 나타내는 태스크로서 긴 코드가 있을 때 시멘틱을 짧게 한 두 문장 정도의 자연어로 나타내어 사람이 빠르게 이해할 수 있도록 하는 것 - 이러한 테스크를 해결하기 위해 해당 논문은 Hierarchical Splitting and Reconstruction 라는 방법을 제시 2021. 11. 25.
[DSBA] Paper Review : Semi-Supervised Text Classification with Balanced Deep Representation Distributions 2021. 11. 21.