인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)

● 강화학습(Reinforcement Learning)

- 학습 데이터가 주어진 상태에서 변화가 없는 정적인 환경에서 진행되는 지도 학습이나 비지도 학습과 달리 불확실한 환경과 상호작용을 통해 주어진 업무를 학습

- 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태를 관찰하며 선택할 수 있는 행동(action) 중 최대의 보상(reward)을 가져다주는 행동이 무엇인지 학습

● 강화학습의 동작 순서

- 정의된 주체(agent)가 주어진 환경(environment)의 현재 상태(state)를 관찰(observation)하여, 행동 (action) 수행 → 환경의 상태가 변화하면서 정의된 주체에게 보상(reward) → 보상을 기반으로 정의된 주체는 더 많은 보상을 얻을 수 있는 방향(best action)으로 행동 학습

● 인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)

- 사람의 피드백(Human Feedback)을 통해 강화학습을 시킬 경우 인간적인 말투, 문화적인 요소 등을 반영할 수 있는데 ChatGPT는 RLHF를 적용함으로써 인간과 구별할 수 없을 정도로 자연스러운 문장 구사 가능

[ 출처 : NIA "ChatGPT는 혁신의 도구가 될 수 있을까? : ChatGPT 활용 사례 및 전망" 중 ]

저작자표시 (새창열림)

'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글

[딥러닝논문읽기모임] 2021 AAAI - MERL : Multimodal Event Representation Learning in Heterogeneous Embedding Spaces (0)	2021.12.02
[딥러닝논문읽기모임]2021 EMNLP paper explained : Enhancing Code Summarization with Hierarchical Splitting (0)	2021.11.25
[DSBA] Paper Review : Semi-Supervised Text Classification with Balanced Deep Representation Distributions (0)	2021.11.21
자연어 처리 논문 리뷰 : [나동빈] 딥러닝 기반의 최신 언어 모델(GPT)의 개인정보 유출 문제: Extracting Training Data from Large Language Models (0)	2021.06.30
자연어 처리 강의 영상 추천 : [고현웅] Large-scale LM에 대한 얕고 넓은 지식들 (part 1) (0)	2021.06.17

망가천재의 스토리텔링

인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)

'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글

티스토리툴바

인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)

'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글

관련글

티스토리툴바