본문 바로가기

머신러닝98

인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback) ● 강화학습(Reinforcement Learning) - 학습 데이터가 주어진 상태에서 변화가 없는 정적인 환경에서 진행되는 지도 학습이나 비지도 학습과 달리 불확실한 환경과 상호작용을 통해 주어진 업무를 학습 - 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태를 관찰하며 선택할 수 있는 행동(action) 중 최대의 보상(reward)을 가져다주는 행동이 무엇인지 학습 ● 강화학습의 동작 순서 - 정의된 주체(agent)가 주어진 환경(environment)의 현재 상태(state)를 관찰(observation)하여, 행동 (action) 수행 → 환경의 상태가 변화하면서 정의된 주체에게 보상(reward) → 보상을 기반으로 정의된 주체는 더 많은 보상을 얻을 수 있는 방향(best act.. 2023. 4. 23.
[딥러닝을이용한 자연어 처리 입문] 0709 소프트맥스 회귀(Softmax Regression) - 다중 클래스 분류 1. 다중 클래스 분류(Multi-class Classification) - 세 개 이상의 선택지 중 하나를 고르는 문제를 다중 클래스 분류라고 함 - iris(붓꽃)의 품종 분류는 꽃받침 길이, 꽃받침 넓이, 꽃잎 길이, 꽃잎 넓이로부터 setosa, versicolor, virginica라는 3개의 품종 중 어떤 품종인지를 예측하는 문제로 전형적인 다중 클래스 분류 문제 임 2. 소프트맥스 함수(Softmax function) - 분류해야하는 정답지(클래스)의 총 개수를 k라고 할 때, k차원의 벡터를 입력받아 각 클래스에 대한 확률을 추정 함 - 분류하고자 하는 클래스가 k개일 때, k차원의 벡터를 입력받아서 모든 벡터 원소의 값을 0과 1사이의 값으로 값을 변경하여 다시 k차원의 벡터를 리턴 3... 2021. 5. 18.
[딥러닝을이용한 자연어 처리 입문] 0708 벡터와 행렬 연산 1. 벡터와 행렬과 텐서 - 벡터 : 크기와 방향을 가진 양 - 행렬 : 행과 열을 가지는 2차원 형상을 가진 구조 - 텐서 : 3차원부터는 주로 텐서라고 부름 2. 텐서(Tensor) - 0차원 텐서 : 하나의 실수값으로 이루어진 스칼라값 - 1차원 텐서 : 숫자를 특성 순서대로 배열한 벡터 벡터의 차원 : 하나의 축에 자원들이 존재하는 것 텐서의 차원 : 축의 개수 - 2차원 텐서 : 행과 열이 존재하는 벡터의 배열. 즉, 행렬(matrix) - 3차원 텐서 : 행렬 또는 2차원 텐서를 단위로 한 번 더 배열한 것 - 텐서 확장 : 3차원 텐서를 배열로 합치면 4차원 텐서, 4차원 텐서를 배열로 합치면 5차원 텐서 ○ 시퀀스 데이터(Sequence Data) - 주로 단어의 시퀀스를 의미, 주로 문장.. 2021. 5. 18.
[딥러닝을이용한 자연어 처리 입문] 0707 다중 입력에 대한 실습 1. 다중 선형 회귀 아래와 같이 중간 고사, 기말 고사, 그리고 추가 점수 등 독립 변수가 3개인 데이터의 선형 회귀 문제 실습 - 훈련용 데이터 : 상위 5개 데이터 - 테스트 데이터 : 나머지 2개 데이터 2. 다중 로지스틱 회귀 아래와 같이 꽃받침(Sepal)의 길이와 꽃잎(Petal)의 길이 등 독립변수가 2개인 데이터의 로지스틱 회귀 문제 실습 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0707 다중 입력에 대한 2021. 5. 17.