Question 1

DPO (Direct Preference Optimization)이란 무엇인가요?

Accepted Answer

DPO(직접 선호도 최적화)는 AI를 인간의 취향에 맞게 정렬하는 방법 중에서 가장 효율적인 최신 기법입니다. RLHF의 핵심 아이디어는 살리면서, 복잡한 중간 단계를 통째로 건너뜁니다.

RLHF는 먼저 "좋은 답변 감별사" 역할을 하는 보상 모델을 따로 만들고, 그 감별사의 판단에 따라 PPO 알고리즘으로 본래 AI를 강화학습시킵니다. 과정이 복잡하고, 동시에 여러 모델을 메모리에 올려야 하며, PPO 알고리즘 자체가 불안정하다는 단점이 있습니다.

DPO는 이 중간 단계를 통째로 제거합니다. 비유하자면, RLHF는 학생에게 전담 교사가 붙어서 매번 "이 답이 저 답보다 낫다"고 채점해주는 방식이고, DPO는 처음부터 "A 답과 B 답 중 A가 더 좋다"는 비교 쌍 목록을 학생에게 직접 주고 스스로 공부하게 하는 방식입니다. 결과물의 품질은 비슷하지만, 과정이 훨씬 단순하고 구현도 쉽습니다.

Meta의 LLaMA-3 훈련 파이프라인에 DPO가 적극적으로 활용됐고, Mistral

Question 2

DPO (Direct Preference Optimization)의 기술적 원리는 무엇인가요?

Accepted Answer

📚 선수학습: RLHF의 KL-제약 보상 최적화 프레임워크와 SFT 파이프라인을 먼저 숙지하세요.

핵심 유도 과정RLHF의 최적화 문제에서 출발한다:

이 KL-제약 보상 최대화 문제의 해석적 최적해는:

이를 보상 에 대해 역으로 풀면:

이를 Bradley-Terry 선호 모델[^1]에 대입하면, 정규화 상수 가 대소 비교 시 상쇄되어:

따라서 DPO 손실 함수:

분리된 각 항 는 암묵적 보상(Implicit Reward)이다. 별도의 보상 모델 없이 언어 모델 자체가 보상 함수를 내재화한다.

파라미터의 역할

실무 권장값:  ~ . 너무 낮으면 정렬 효과가 미미하고, 너무 높으면 보상 해킹(reward hacking)[^2] 발생 위험이 있다.

RLHF vs DPO 비교

| 기준 | RLHF | DPO |
|------|------|-----|
| 보상 모델 | 필요 (별도 학습) | 불필요 |
| 알고리즘 | PPO (복잡) | 지도학습 (단순) |
| 동시 메모

기준	RLHF	DPO
보상 모델	필요 (별도 학습)	불필요
알고리즘	PPO (복잡)	지도학습 (단순)
동시 메모리	4개 모델	2개 모델
학습 안정성	낮음	높음
온라인 샘플링	가능	기본적으로 오프라인
구현 코드 수	수백 줄	수십 줄

DPO (Direct Preference Optimization)

쉽게 이해하기

기술 심층 분석

핵심 유도 과정RLHF의 최적화 문제에서 출발한다:

$\beta$ 파라미터의 역할

RLHF vs DPO 비교

데이터 형식: 선호도 쌍

주요 변형

Footnotes

댓글

DPO (Direct Preference Optimization)

쉽게 이해하기

기술 심층 분석

핵심 유도 과정RLHF의 최적화 문제에서 출발한다:

β\betaβ 파라미터의 역할

RLHF vs DPO 비교

데이터 형식: 선호도 쌍

주요 변형

Footnotes

Footnotes

댓글

$\beta$ 파라미터의 역할