o1은 OpenAI의 최초 추론(reasoning) 모델로, '생각하고 답하는 AI'라는 새로운 패러다임을 열었습니다. 200K 토큰 컨텍스트를 지원하며, MMLU 91.8, MATH 96.4, HumanEval 96.4, GSM8K 97.1로 출시 당시 모든 추론 벤치마크에서 새로운 최고 기록을 세웠습니다.

o1의 혁신은 'chain-of-thought reasoning'을 모델 내부에 통합한 것입니다. 답변 전에 내부적으로 여러 단계의 사고 과정을 거치며, 이를 통해 기존 모델들이 실패하던 복잡한 다단계 추론 문제를 해결합니다. MMLU-PRO 84.1, GPQA 75.7점은 전문 지식과 과학 추론에서의 높은 정확도를 보여주며, SWE-bench Verified 41점은 소프트웨어 엔지니어링에서도 추론 모델의 잠재력을 입증했습니다. Arena Elo 1402로 실사용자 선호도도 최상위입니다.

입력 $15/1M 토큰, 출력$ 60/1M 토큰으로 프리미엄 가격대입니다. 후속 모델인 o3와 o4 Mini가 더 나은 성능을 더 낮은 가격에 제공하므로, 신규 프로젝트에서는 o3 또는 o4 Mini를 권장합니다. 다만 o1에 최적화된 기존 프롬프트가 있다면 즉시 전환 시 동작 차이가 있을 수 있습니다.

추론 모델의 원조로서 역사적 가치가 있으며, o1 전용으로 설계된 레거시 파이프라인의 유지보수에 활용됩니다. 새로운 추론 작업에는 o3 또는 o4 Mini가 더 나은 성능과 가격을 제공합니다.

벤치마크	카테고리	이 모델	전체 평균	전체 최고	단위
Arena Elo		1402.0	1369.2	1493.0	elo
GPQA	LLM

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
o1	OpenAI	86.1	-
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-

o1

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

관련 블로그 글

댓글