AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
방법론Transfer LearningFine-tuningORPO

ORPO

Fine-tuning

쉽게 이해하기

ORPO는 AI에게 지식을 가르치는 것과 답변 품질을 높이는 것을 한 번에 처리하는 최신 훈련 방법입니다. 기존에는 두 단계를 거쳐야 했습니다. 먼저 예시를 보여주며 기본기를 가르치고, 그다음에 "이 답변이 더 좋다"는 피드백으로 품질을 높이는 과정이 필요했습니다. ORPO는 이 두 단계를 하나로 합쳤습니다.

요리 학원에 비유하면, 기존 방식은 요리 기술을 먼저 배우고 나서 맛 평가를 따로 받는 것이었다면, ORPO는 요리를 배우면서 동시에 "이 맛이 맞다/틀리다"를 함께 배우는 것과 같습니다.

한국의 KAIST 연구팀이 2024년에 발표한 이 방법은 학계에서 큰 주목을 받았습니다. Mistral AI도 ORPO를 적용해 기존 방법과 비슷하거나 더 나은 성능을 보여주었습니다. 특히 시간과 자원이 한정된 팀에게 매력적인 선택지입니다.

기술 심층 분석

📚 선수학습: SFT와 DPO 개념을 먼저 숙지하세요.

SFT의 구조적 문제

SFT는 선호 응답의 확률을 높이지만 비선호 응답의 확률도 함께 증가시킨다. ORPO는 승산비(Odds Ratio)1로 이 문제를 직접 해결한다.

목적함수

LORPO=LSFT+λ⋅LOR\mathcal{L}_\text{ORPO} = \mathcal{L}_\text{SFT} + \lambda \cdot \mathcal{L}_\text{OR}LORPO​=LSFT​+λ⋅LOR​

승산: oddsθ(y∣x)=Pθ(y∣x)1−Pθ(y∣x)\text{odds}_\theta(y|x) = \frac{P_\theta(y|x)}{1 - P_\theta(y|x)}oddsθ​(y∣x)=1−Pθ​(y∣x)Pθ​(y∣x)​

선호도 손실: LOR=−log⁡σ(log⁡oddsθ(yw∣x)oddsθ(yl∣x))\mathcal{L}_\text{OR} = -\log \sigma\left(\log \frac{\text{odds}_\theta(y_w|x)}{\text{odds}_\theta(y_l|x)}\right)LOR​=−logσ(logoddsθ​(yl​∣x)oddsθ​(yw​∣x)​)

DPO와의 차이

DPO는 참조 정책 πref\pi_\text{ref}πref​이 필요하지만, ORPO는 현재 정책 자체의 확률 비율만 사용 → 참조 모델 불필요, 메모리 절반. SFT 손실이 정규화 역할을 수행.

λ=0.25∼0.5\lambda = 0.25 \sim 0.5λ=0.25∼0.5가 가장 안정적. DPO 대비 약 40% 빠른 수렴.

Footnotes

  1. 승산비(Odds Ratio): 두 사건의 승산을 비교하는 통계적 측도 ↩

이전글

Neural Architecture Search (NAS)

다음글

Plan Mode Workflow

댓글

0개

댓글을 작성하려면

로그인

해주세요

방법론 정보

상위 카테고리

Transfer LearningFine-tuning

관련 게시글

5개

사용 서비스

2개

관련 게시글

AI 모델 평가 완전 가이드: RAGAS, LangSmith, Promptfoo 실전 비교

COMPARISON

DeepSeek R1 완전 분석: 중국 오픈소스 AI가 바꾼 게임의 규칙

DEEP_DIVE

Fine-tuning vs RAG: 어떤 방법을 선택해야 하나?

COMPARISON

사용 서비스

OpenAI API Platform

Claude API

관련 방법론

Adapter Tuning

DPO (Direct Preference Optimization)

LoRA

Prefix Tuning

QLoRA

RLHF (Reinforcement Learning from Human Feedback)

Self-Improvement

SFT (Supervised Fine-Tuning)