o4 Mini는 OpenAI의 최신 경량 추론 모델로, o 시리즈의 비용 효율성과 고성능을 결합한 모델입니다. 200K 토큰 컨텍스트를 지원하며, MMLU 90, GPQA 77.6, MATH 97.5, HumanEval 97.3이라는 뛰어난 벤치마크 성능을 기록합니다. 특히 HumanEval 97.3점은 코딩 작업에서 거의 완벽에 가까운 수준입니다.
o4 Mini의 가장 인상적인 성과는 GAIA 54.6점입니다. GAIA는 AI 에이전트가 실제 세계의 복잡한 작업을 수행하는 능력을 측정하며, 이 점수는 에이전트 워크플로우에서의 실전 역량을 의미합니다. SWE-bench Verified 68.1점과 IFEval 95.6점도 소프트웨어 엔지니어링과 지시 따르기에서 높은 수준을 보여줍니다.
입력 4.40/1M 토큰으로 o3 대비 절반 수준의 가격이면서 대부분의 작업에서 유사한 수준의 추론 품질을 제공합니다. '추론이 필요하지만 o3는 과한' 상황에서 최적의 균형점입니다.
코딩 에이전트, 수학 및 과학 문제 풀이, 데이터 분석 파이프라인, 복잡한 지시사항을 정확히 따라야 하는 자동화 워크플로우 등에 적합합니다. o3의 깊은 추론이 불필요한 대부분의 추론 작업에서 o4 Mini가 비용 효율적인 대안이 됩니다.
컨텍스트 윈도우
200K 토큰
라이선스
Proprietary
출시일
2025년 4월 17일
학습 마감일
2024년 6월 30일
가성비 지수
1.7
API 가격 (혼합)
입력 $1.10/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$1.10 / 1M 토큰
출력 (Completion)
$4.40 / 1M 토큰
태스크 관련 벤치마크 평균 점수
95.6
복잡한 지시사항 이해 및 수행
87.5
수학, 과학, 논리적 추론
83.2
다양한 분야 지식 및 이해
OpenAI
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| GAIA | 54.6 |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| o4 Mini | 87.7 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
82.7
코드 생성, 버그 수정, 소프트웨어 엔지니어링
| % |
| GPQA | 77.6 | % |
| HumanEval | 97.3 | % |
| IFEval | 95.6 | % |
| MATH Lvl 5 | 97.5 | % |
| MMLU | 90.0 | % |
| MMLU-PRO | 83.2 | % |
| SWE-bench Verified | 68.1 | % |
| τ-bench | 56.0 | % |
| Mistral Large 3 2512 |
| 72.8 |