o1은 OpenAI의 최초 추론(reasoning) 모델로, '생각하고 답하는 AI'라는 새로운 패러다임을 열었습니다. 200K 토큰 컨텍스트를 지원하며, MMLU 91.8, MATH 96.4, HumanEval 96.4, GSM8K 97.1로 출시 당시 모든 추론 벤치마크에서 새로운 최고 기록을 세웠습니다.
o1의 혁신은 'chain-of-thought reasoning'을 모델 내부에 통합한 것입니다. 답변 전에 내부적으로 여러 단계의 사고 과정을 거치며, 이를 통해 기존 모델들이 실패하던 복잡한 다단계 추론 문제를 해결합니다. MMLU-PRO 84.1, GPQA 75.7점은 전문 지식과 과학 추론에서의 높은 정확도를 보여주며, SWE-bench Verified 41점은 소프트웨어 엔지니어링에서도 추론 모델의 잠재력을 입증했습니다. Arena Elo 1402로 실사용자 선호도도 최상위입니다.
입력 60/1M 토큰으로 프리미엄 가격대입니다. 후속 모델인 o3와 o4 Mini가 더 나은 성능을 더 낮은 가격에 제공하므로, 신규 프로젝트에서는 o3 또는 o4 Mini를 권장합니다. 다만 o1에 최적화된 기존 프롬프트가 있다면 즉시 전환 시 동작 차이가 있을 수 있습니다.
추론 모델의 원조로서 역사적 가치가 있으며, o1 전용으로 설계된 레거시 파이프라인의 유지보수에 활용됩니다. 새로운 추론 작업에는 o3 또는 o4 Mini가 더 나은 성능과 가격을 제공합니다.
컨텍스트 윈도우
200K 토큰
라이선스
Proprietary
출시일
2024년 12월 18일
학습 마감일
2023년 10월 31일
가성비 지수
0.1
API 가격 (혼합)
입력 $15.00/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$15.00 / 1M 토큰
출력 (Completion)
$60.00 / 1M 토큰
태스크 관련 벤치마크 평균 점수
86.1
수학, 과학, 논리적 추론
84.1
다양한 분야 지식 및 이해
68.7
코드 생성, 버그 수정, 소프트웨어 엔지니어링
OpenAI
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| Arena Elo | 1402.0 | elo |
| GPQA |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| o1 | 86.1 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
| 75.7 |
| % |
| GSM8K | 97.1 | % |
| HumanEval | 96.4 | % |
| MATH Lvl 5 | 96.4 | % |
| MMLU | 91.8 | % |
| MMLU-PRO | 84.1 | % |
| SWE-bench Verified | 41.0 | % |
| Mistral Large 3 2512 | 72.8 |
Mistral: Mistral Large 3 2512
Mistral AI