o3 Mini는 OpenAI의 비용 효율적 추론 모델로, STEM(과학, 기술, 공학, 수학) 분야에 특화되어 설계되었습니다. 200K 토큰 컨텍스트를 지원하며, MATH 97.3, HumanEval 96.3으로 수학과 코딩에서 거의 완벽한 성능을 달성합니다. MMLU 85.9, GPQA 74.9, IFEval 93.9로 범용 능력도 견고합니다.
o3 Mini의 핵심 특징은 추론 노력 수준(reasoning effort)을 low/medium/high로 조절할 수 있다는 점입니다. 간단한 문제에는 low effort로 빠르고 저렴하게, 복잡한 문제에는 high effort로 깊이 있게 사고하도록 설정할 수 있어, 단일 모델로 다양한 난이도의 작업을 효율적으로 처리합니다. SWE-bench Verified 49.3점은 소프트웨어 엔지니어링 작업에서도 활용 가능한 수준입니다.
입력 4.40/1M 토큰으로 o3 대비 절반 이하의 가격이며, Arena Elo 1375로 실제 사용자 평가에서도 높은 만족도를 기록합니다. 추론 모델을 처음 도입하려는 팀에게 진입장벽이 낮은 시작점이 됩니다.
수학 및 과학 문제의 자동 풀이와 채점, STEM 교육용 AI 튜터, 코드 리뷰 자동화, 데이터 분석에서의 논리적 검증 등 정확한 추론이 필요하면서도 비용에 민감한 대량 처리 워크플로우에 최적입니다. 추론 노력 조절 기능으로 같은 모델을 작업 난이도에 맞게 유연하게 활용할 수 있습니다.
컨텍스트 윈도우
200K 토큰
라이선스
Proprietary
출시일
2025년 2월 1일
학습 마감일
2023년 10월 31일
가성비 지수
1.8
API 가격 (혼합)
입력 $1.10/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$1.10 / 1M 토큰
출력 (Completion)
$4.40 / 1M 토큰
태스크 관련 벤치마크 평균 점수
93.9
복잡한 지시사항 이해 및 수행
86.1
수학, 과학, 논리적 추론
79.1
다양한 분야 지식 및 이해
OpenAI
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| Arena Elo | 1375.0 | elo |
| GPQA |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| o3 Mini | 85.6 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
72.8
코드 생성, 버그 수정, 소프트웨어 엔지니어링
| 74.9 |
| % |
| HumanEval | 96.3 | % |
| IFEval | 93.9 | % |
| MATH Lvl 5 | 97.3 | % |
| MMLU | 85.9 | % |
| MMLU-PRO | 79.1 | % |
| SWE-bench Verified | 49.3 | % |
| Mistral Large 3 2512 | 72.8 |
xAI: Grok 4.1 Fast
xAI