o3는 OpenAI의 3세대 추론(reasoning) 모델로, o1과 o1-pro의 뒤를 잇는 '사고하는 AI'의 최신 진화입니다. 200K 토큰 컨텍스트를 지원하며, MMLU 92.9, GPQA 82.8, MATH 97.8이라는 압도적인 벤치마크 성능을 기록합니다. 특히 MATH 97.8점은 수학적 추론 능력에서 인간 전문가 수준을 넘어서는 성과입니다.

o3의 핵심 혁신은 '효율적 추론'입니다. o1 대비 동일한 난이도의 문제를 더 적은 내부 사고 토큰으로 해결하며, 이는 응답 시간 단축과 API 비용 절감으로 직결됩니다. SWE-bench Verified 69.1점으로 실제 소프트웨어 엔지니어링 작업에서도 높은 역량을 입증했으며, IFEval 94.3점은 복잡한 지시사항을 정확하게 따르는 능력을 보여줍니다.

입력 $2.00/1M 토큰, 출력$ 8.00/1M 토큰으로 추론 모델 중에서는 프리미엄 가격대에 위치합니다. 그러나 단순 질의응답이 아닌 복잡한 다단계 추론이 필요한 작업에서는 한 번의 정확한 응답으로 반복 호출을 줄여주므로 총 비용 효율성이 높습니다. Arena Elo 1433으로 실제 사용자들의 블라인드 평가에서도 최상위권 선호도를 기록합니다.

수학 증명, 과학 논문 분석, 복잡한 코드 디버깅, 법률 및 의료 분야의 논리적 추론 등 '정확성이 속도보다 중요한' 고난도 작업에 최적화되어 있습니다. GPT-5가 빠른 범용 응답을, o3가 깊은 추론을 담당하는 식으로 용도에 따라 모델을 선택하면 비용과 품질을 동시에 최적화하는 AI 전략 수립이 가능합니다. OpenAI API를 통해 전 세계적으로 이용 가능합니다.

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
o3	OpenAI	88.8	47.7
o1-pro	OpenAI	86.4	-
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-
Mistral Large 3 2512	Mistral AI	72.8

o3

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

관련 블로그 글

댓글