o3 Mini는 OpenAI의 비용 효율적 추론 모델로, STEM(과학, 기술, 공학, 수학) 분야에 특화되어 설계되었습니다. 200K 토큰 컨텍스트를 지원하며, MATH 97.3, HumanEval 96.3으로 수학과 코딩에서 거의 완벽한 성능을 달성합니다. MMLU 85.9, GPQA 74.9, IFEval 93.9로 범용 능력도 견고합니다.

o3 Mini의 핵심 특징은 추론 노력 수준(reasoning effort)을 low/medium/high로 조절할 수 있다는 점입니다. 간단한 문제에는 low effort로 빠르고 저렴하게, 복잡한 문제에는 high effort로 깊이 있게 사고하도록 설정할 수 있어, 단일 모델로 다양한 난이도의 작업을 효율적으로 처리합니다. SWE-bench Verified 49.3점은 소프트웨어 엔지니어링 작업에서도 활용 가능한 수준입니다.

입력 $1.10/1M 토큰, 출력$ 4.40/1M 토큰으로 o3 대비 절반 이하의 가격이며, Arena Elo 1375로 실제 사용자 평가에서도 높은 만족도를 기록합니다. 추론 모델을 처음 도입하려는 팀에게 진입장벽이 낮은 시작점이 됩니다.

수학 및 과학 문제의 자동 풀이와 채점, STEM 교육용 AI 튜터, 코드 리뷰 자동화, 데이터 분석에서의 논리적 검증 등 정확한 추론이 필요하면서도 비용에 민감한 대량 처리 워크플로우에 최적입니다. 추론 노력 조절 기능으로 같은 모델을 작업 난이도에 맞게 유연하게 활용할 수 있습니다.

벤치마크	카테고리	이 모델	전체 평균	전체 최고	단위
Arena Elo		1375.0	1369.2	1493.0	elo
GPQA

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
o3 Mini	OpenAI	85.6	-
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-

o3 Mini

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

관련 블로그 글

댓글