Question 1

ORPO이란 무엇인가요?

Accepted Answer

ORPO는 AI에게 지식을 가르치는 것과 답변 품질을 높이는 것을 한 번에 처리하는 최신 훈련 방법입니다. 기존에는 두 단계를 거쳐야 했습니다. 먼저 예시를 보여주며 기본기를 가르치고, 그다음에 "이 답변이 더 좋다"는 피드백으로 품질을 높이는 과정이 필요했습니다. ORPO는 이 두 단계를 하나로 합쳤습니다.

요리 학원에 비유하면, 기존 방식은 요리 기술을 먼저 배우고 나서 맛 평가를 따로 받는 것이었다면, ORPO는 요리를 배우면서 동시에 "이 맛이 맞다/틀리다"를 함께 배우는 것과 같습니다.

한국의 KAIST 연구팀이 2024년에 발표한 이 방법은 학계에서 큰 주목을 받았습니다. Mistral AI도 ORPO를 적용해 기존 방법과 비슷하거나 더 나은 성능을 보여주었습니다. 특히 시간과 자원이 한정된 팀에게 매력적인 선택지입니다.

Question 2

ORPO의 기술적 원리는 무엇인가요?

Accepted Answer

📚 선수학습: SFT와 DPO 개념을 먼저 숙지하세요.

SFT의 구조적 문제

SFT는 선호 응답의 확률을 높이지만 비선호 응답의 확률도 함께 증가시킨다. ORPO는 승산비(Odds Ratio)[^1]로 이 문제를 직접 해결한다.

목적함수

승산:

선호도 손실:

DPO와의 차이

DPO는 참조 정책 이 필요하지만, ORPO는 현재 정책 자체의 확률 비율만 사용 → 참조 모델 불필요, 메모리 절반. SFT 손실이 정규화 역할을 수행.

가 가장 안정적. DPO 대비 약 40% 빠른 수렴.

ORPO

쉽게 이해하기

기술 심층 분석

SFT의 구조적 문제

목적함수

DPO와의 차이

댓글

관련 방법론

ORPO

쉽게 이해하기

기술 심층 분석

SFT의 구조적 문제

목적함수

DPO와의 차이

Footnotes

댓글

관련 방법론