AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
방법론Transfer LearningFine-tuningRLHF (Reinforcement Learning from Human Feedback)

RLHF (Reinforcement Learning from Human Feedback)

Fine-tuning

쉽게 이해하기

RLHF는 AI가 내놓은 답변을 사람이 직접 비교 평가해서 더 나은 방향으로 이끌어가는 훈련 방법입니다. AI가 두 가지 답변을 내놓으면 사람이 "왼쪽이 더 낫다" 또는 "오른쪽이 더 낫다"고 점수를 매기는 겁니다. 이런 피드백이 수만 번 쌓이면, AI는 사람이 선호하는 스타일로 답변하는 법을 스스로 터득합니다.

아이에게 그림을 가르칠 때를 생각해 보세요. 그림 두 장을 놓고 "이 그림이 더 예쁘다"고 말해주면, 아이는 점점 어떤 그림이 좋은 그림인지 감을 잡게 됩니다.

ChatGPT가 전 세계적으로 큰 인기를 끈 핵심 비결이 바로 RLHF입니다. Anthropic의 Claude도 RLHF를 핵심 기술로 사용하며, 특히 안전하고 정직한 답변을 하도록 사람의 피드백을 반영합니다.

기술 심층 분석

📚 선수학습: SFT 개념을 먼저 숙지하세요.

3단계 파이프라인

RLHF는 세 단계로 구성된다: (1) SFT로 기본 정렬, (2) 보상 모델(Reward Model) 학습, (3) PPO1로 정책 최적화.

보상 모델 학습

브래들리-테리(Bradley-Terry) 모델2 기반으로, 선호 응답 ywy_wyw​와 비선호 응답 yly_lyl​의 쌍에서:

LRM=−E[log⁡σ(rϕ(x,yw)−rϕ(x,yl))]\mathcal{L}_\text{RM} = -\mathbb{E}\left[\log \sigma\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)\right]LRM​=−E[logσ(rϕ​(x,yw​)−rϕ​(x,yl​))]

PPO 기반 정책 최적화

J=Ex,y∼πθ[rϕ(x,y)]−β⋅KL[πθ∥πref]J = \mathbb{E}_{x,y \sim \pi_\theta}\left[r_\phi(x, y)\right] - \beta \cdot \text{KL}\left[\pi_\theta \| \pi_\text{ref}\right]J=Ex,y∼πθ​​[rϕ​(x,y)]−β⋅KL[πθ​∥πref​]

πref\pi_\text{ref}πref​는 SFT 이후 고정된 참조 정책이다. KL 페널티는 정책이 참조 모델에서 지나치게 벗어나는 것을 방지한다. β\betaβ가 너무 작으면 보상 해킹(Reward Hacking)3이 발생하고, 너무 크면 학습이 정체된다.

학습 불안정성

네 개의 모델(정책, 참조, 보상, 가치)을 동시에 메모리에 올려야 하므로 GPU 요구량이 매우 크다. PPO의 하이퍼파라미터(클리핑 ϵ\epsilonϵ, KL β\betaβ, GAE λ\lambdaλ)에 민감하다. 이러한 복잡성을 해결하기 위해 DPO, ORPO 같은 간소화된 대안이 등장했다.

Footnotes

  1. PPO(Proximal Policy Optimization): 정책 업데이트 폭을 제한하여 안정적 학습을 보장하는 강화학습 알고리즘 ↩

  2. 브래들리-테리 모델: 쌍대 비교 데이터로부터 상대적 강도를 추정하는 확률 모델 ↩

  3. 보상 해킹(Reward Hacking): 보상 모델의 허점을 이용해 실제 품질 향상 없이 높은 보상을 얻는 현상 ↩

이전글

ReAct (Reasoning + Acting)

다음글

RoPE (Rotary Position Embedding)

댓글

0개

댓글을 작성하려면

로그인

해주세요

방법론 정보

상위 카테고리

Transfer LearningFine-tuning

관련 게시글

10개

사용 서비스

10개

관련 게시글

AI 재귀적 자기 개선 완전 가이드: 특이점 논쟁부터 실전 활용까지

GUIDE

프롬프트 엔지니어링 완전 가이드: 2025년 최신 기법

GUIDE

AI 레드팀과 LLM 보안: 프롬프트 인젝션부터 탈옥 방어까지

GUIDE

사용 서비스

Grammarly

OpenAI API Platform

Poe

관련 방법론

Adapter Tuning

DPO (Direct Preference Optimization)

LoRA

ORPO

Prefix Tuning

QLoRA

Self-Improvement

SFT (Supervised Fine-Tuning)