Question 1

RLHF (Reinforcement Learning from Human Feedback)이란 무엇인가요?

Accepted Answer

RLHF는 AI가 내놓은 답변을 사람이 직접 비교 평가해서 더 나은 방향으로 이끌어가는 훈련 방법입니다. AI가 두 가지 답변을 내놓으면 사람이 "왼쪽이 더 낫다" 또는 "오른쪽이 더 낫다"고 점수를 매기는 겁니다. 이런 피드백이 수만 번 쌓이면, AI는 사람이 선호하는 스타일로 답변하는 법을 스스로 터득합니다.

아이에게 그림을 가르칠 때를 생각해 보세요. 그림 두 장을 놓고 "이 그림이 더 예쁘다"고 말해주면, 아이는 점점 어떤 그림이 좋은 그림인지 감을 잡게 됩니다.

ChatGPT가 전 세계적으로 큰 인기를 끈 핵심 비결이 바로 RLHF입니다. Anthropic의 Claude도 RLHF를 핵심 기술로 사용하며, 특히 안전하고 정직한 답변을 하도록 사람의 피드백을 반영합니다.

Question 2

RLHF (Reinforcement Learning from Human Feedback)의 기술적 원리는 무엇인가요?

Accepted Answer

📚 선수학습: SFT 개념을 먼저 숙지하세요.

3단계 파이프라인

RLHF는 세 단계로 구성된다: (1) SFT로 기본 정렬, (2) 보상 모델(Reward Model) 학습, (3) PPO[^1]로 정책 최적화.

보상 모델 학습

브래들리-테리(Bradley-Terry) 모델[^2] 기반으로, 선호 응답 와 비선호 응답 의 쌍에서:

PPO 기반 정책 최적화

는 SFT 이후 고정된 참조 정책이다. KL 페널티는 정책이 참조 모델에서 지나치게 벗어나는 것을 방지한다. 가 너무 작으면 보상 해킹(Reward Hacking)[^3]이 발생하고, 너무 크면 학습이 정체된다.

학습 불안정성

네 개의 모델(정책, 참조, 보상, 가치)을 동시에 메모리에 올려야 하므로 GPU 요구량이 매우 크다. PPO의 하이퍼파라미터(클리핑 , KL , GAE )에 민감하다. 이러한 복잡성을 해결하기 위해 DPO, ORPO 같은 간소화된 대안이 등장했다.

RLHF (Reinforcement Learning from Human Feedback)

쉽게 이해하기

기술 심층 분석

3단계 파이프라인

보상 모델 학습

PPO 기반 정책 최적화

학습 불안정성

댓글

관련 방법론

RLHF (Reinforcement Learning from Human Feedback)

쉽게 이해하기

기술 심층 분석

3단계 파이프라인

보상 모델 학습

PPO 기반 정책 최적화

학습 불안정성

Footnotes

댓글

관련 방법론