o4 Mini는 OpenAI의 최신 경량 추론 모델로, o 시리즈의 비용 효율성과 고성능을 결합한 모델입니다. 200K 토큰 컨텍스트를 지원하며, MMLU 90, GPQA 77.6, MATH 97.5, HumanEval 97.3이라는 뛰어난 벤치마크 성능을 기록합니다. 특히 HumanEval 97.3점은 코딩 작업에서 거의 완벽에 가까운 수준입니다.

o4 Mini의 가장 인상적인 성과는 GAIA 54.6점입니다. GAIA는 AI 에이전트가 실제 세계의 복잡한 작업을 수행하는 능력을 측정하며, 이 점수는 에이전트 워크플로우에서의 실전 역량을 의미합니다. SWE-bench Verified 68.1점과 IFEval 95.6점도 소프트웨어 엔지니어링과 지시 따르기에서 높은 수준을 보여줍니다.

입력 $1.10/1M 토큰, 출력$ 4.40/1M 토큰으로 o3 대비 절반 수준의 가격이면서 대부분의 작업에서 유사한 수준의 추론 품질을 제공합니다. '추론이 필요하지만 o3는 과한' 상황에서 최적의 균형점입니다.

코딩 에이전트, 수학 및 과학 문제 풀이, 데이터 분석 파이프라인, 복잡한 지시사항을 정확히 따라야 하는 자동화 워크플로우 등에 적합합니다. o3의 깊은 추론이 불필요한 대부분의 추론 작업에서 o4 Mini가 비용 효율적인 대안이 됩니다.

벤치마크

이 모델

단위

GAIA

54.6

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

o4 Mini

87.7

o1-pro

86.4

88.8

Grok 4.1 Fast

74.4

Command A

69.1

o4 Mini

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
o4 Mini	OpenAI	87.7	61.4
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-