ORPO는 AI에게 지식을 가르치는 것과 답변 품질을 높이는 것을 한 번에 처리하는 최신 훈련 방법입니다. 기존에는 두 단계를 거쳐야 했습니다. 먼저 예시를 보여주며 기본기를 가르치고, 그다음에 "이 답변이 더 좋다"는 피드백으로 품질을 높이는 과정이 필요했습니다. ORPO는 이 두 단계를 하나로 합쳤습니다.
요리 학원에 비유하면, 기존 방식은 요리 기술을 먼저 배우고 나서 맛 평가를 따로 받는 것이었다면, ORPO는 요리를 배우면서 동시에 "이 맛이 맞다/틀리다"를 함께 배우는 것과 같습니다.
한국의 KAIST 연구팀이 2024년에 발표한 이 방법은 학계에서 큰 주목을 받았습니다. Mistral AI도 ORPO를 적용해 기존 방법과 비슷하거나 더 나은 성능을 보여주었습니다. 특히 시간과 자원이 한정된 팀에게 매력적인 선택지입니다.
SFT는 선호 응답의 확률을 높이지만 비선호 응답의 확률도 함께 증가시킨다. ORPO는 승산비(Odds Ratio)1로 이 문제를 직접 해결한다.
승산:
선호도 손실:
DPO는 참조 정책 이 필요하지만, ORPO는 현재 정책 자체의 확률 비율만 사용 → 참조 모델 불필요, 메모리 절반. SFT 손실이 정규화 역할을 수행.
가 가장 안정적. DPO 대비 약 40% 빠른 수렴.
승산비(Odds Ratio): 두 사건의 승산을 비교하는 통계적 측도 ↩