RLHF는 AI가 내놓은 답변을 사람이 직접 비교 평가해서 더 나은 방향으로 이끌어가는 훈련 방법입니다. AI가 두 가지 답변을 내놓으면 사람이 "왼쪽이 더 낫다" 또는 "오른쪽이 더 낫다"고 점수를 매기는 겁니다. 이런 피드백이 수만 번 쌓이면, AI는 사람이 선호하는 스타일로 답변하는 법을 스스로 터득합니다.
아이에게 그림을 가르칠 때를 생각해 보세요. 그림 두 장을 놓고 "이 그림이 더 예쁘다"고 말해주면, 아이는 점점 어떤 그림이 좋은 그림인지 감을 잡게 됩니다.
ChatGPT가 전 세계적으로 큰 인기를 끈 핵심 비결이 바로 RLHF입니다. Anthropic의 Claude도 RLHF를 핵심 기술로 사용하며, 특히 안전하고 정직한 답변을 하도록 사람의 피드백을 반영합니다.
📚 선수학습: SFT 개념을 먼저 숙지하세요.
RLHF는 세 단계로 구성된다: (1) SFT로 기본 정렬, (2) 보상 모델(Reward Model) 학습, (3) PPO1로 정책 최적화.
브래들리-테리(Bradley-Terry) 모델2 기반으로, 선호 응답 와 비선호 응답 의 쌍에서:
는 SFT 이후 고정된 참조 정책이다. KL 페널티는 정책이 참조 모델에서 지나치게 벗어나는 것을 방지한다. 가 너무 작으면 보상 해킹(Reward Hacking)3이 발생하고, 너무 크면 학습이 정체된다.
네 개의 모델(정책, 참조, 보상, 가치)을 동시에 메모리에 올려야 하므로 GPU 요구량이 매우 크다. PPO의 하이퍼파라미터(클리핑 , KL , GAE )에 민감하다. 이러한 복잡성을 해결하기 위해 DPO, ORPO 같은 간소화된 대안이 등장했다.