Grok 3는 xAI의 플래그십 모델로, 엔터프라이즈 환경에서의 활용에 최적화되어 있습니다. 131K 토큰 컨텍스트를 지원하며, MMLU 92.7, MMLU-PRO 79.9, MATH 89.7, HumanEval 86.5로 전반적으로 높은 성능을 기록합니다. Arena Elo 1402로 실사용자 블라인드 평가에서도 최상위권 선호도를 보여줍니다.
Grok 3의 강점은 균형 잡힌 범용 성능입니다. MMLU 92.7점은 GPT-4o와 동급의 광범위한 지식을, MATH 89.7점은 수학 추론에서의 강력한 능력을, SWE-bench Verified 63.8점은 실제 소프트웨어 엔지니어링에서의 실용적인 역량을 각각 보여줍니다. GPQA 69.3점은 과학적 추론에서도 견고한 수준입니다. X(구 트위터) 플랫폼과의 연동을 통해 실시간 정보 접근도 가능합니다.
입력 15.00/1M 토큰으로 프리미엄 가격대이며, 후속 모델인 Grok 4와 Grok 4 Fast가 더 나은 성능을 제공합니다. 그러나 Grok 3는 검증된 안정성과 풍부한 사용 사례가 축적되어 있어 기존 파이프라인에서 신뢰도가 높습니다.
엔터프라이즈 AI 솔루션, 범용 텍스트 분석 및 생성, 코딩 보조, 또는 xAI 생태계를 활용한 실시간 정보 기반 서비스 구축에 적합합니다. 최신 성능이 필요하다면 Grok 4 시리즈로의 업그레이드를 고려하세요.
컨텍스트 윈도우
131K 토큰
라이선스
-
출시일
2025년 6월 11일
학습 마감일
2025년 2월 28일
가성비 지수
0.5
API 가격 (혼합)
입력 $3.00/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$3.00 / 1M 토큰
출력 (Completion)
$15.00 / 1M 토큰
태스크 관련 벤치마크 평균 점수
79.9
다양한 분야 지식 및 이해
79.5
수학, 과학, 논리적 추론
75.2
코드 생성, 버그 수정, 소프트웨어 엔지니어링
xAI
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| Arena Elo | 1402.0 | elo |
| GPQA | 69.3 |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| Grok 3 | 79.8 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
| % |
| HumanEval | 86.5 | % |
| MATH Lvl 5 | 89.7 | % |
| MMLU | 92.7 | % |
| MMLU-PRO | 79.9 | % |
| SWE-bench Verified | 63.8 | % |
| Mistral Large 3 2512 | 72.8 |