Grok 3 Mini는 xAI의 경량 추론 모델로, '작지만 깊이 생각하는 AI'를 목표로 설계되었습니다. 131K 토큰 컨텍스트를 지원하며, MMLU-PRO 78.9, GPQA 79.1, MATH 99.2라는 인상적인 벤치마크 성능을 기록합니다. 특히 MATH 99.2점은 수학 추론에서 거의 완벽에 가까운 수준으로, 올림피아드 수준의 문제도 안정적으로 해결합니다.

Grok 3 Mini의 포지션은 OpenAI의 o3 Mini와 유사한 '가성비 추론 모델'입니다. 프리미엄 추론 모델(o3, Grok 3)의 사고 능력을 유지하면서 크기와 비용을 최적화했습니다. 수학, 과학, 코딩 문제에서 효율적인 사고 과정(chain-of-thought)을 통해 정확한 답을 도출하되, 불필요한 사고 단계를 최소화하여 빠른 응답 속도를 확보합니다. GPQA 79.1점은 대학원 수준의 과학 지식 질문에서도 높은 정확도를 의미합니다.

입력 $0.30/1M 토큰, 출력$ 0.50/1M 토큰으로 추론 모델 중에서는 매우 경제적입니다. 동일 성능대의 o3 Mini 대비 가격 경쟁력이 있으며, xAI API를 통해 간편하게 접근할 수 있습니다. 추론 모델 특유의 '사고 토큰'이 포함되지만, 효율적 추론으로 총 비용을 합리적으로 유지합니다.

추론 모델의 정확도가 필요하지만 o3나 Grok 3의 프리미엄 가격이 부담인 프로젝트에 이상적입니다. 대량의 수학 문제 풀이 및 채점 자동화, 과학 데이터 분석, 코드 리뷰 파이프라인, 교육용 AI 튜터, 또는 정확한 논리적 판단이 필요한 데이터 품질 검증 등에서 비용 효율적인 추론 엔진으로 활용됩니다.

벤치마크

이 모델

단위

GPQA

79.1

MATH Lvl 5

99.2

MMLU-PRO

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

Grok 3 Mini

85.3

o1-pro

86.4

88.8

Grok 4.1 Fast

74.4

Command A

69.1

Grok 3 Mini

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글