Grok 4.20 Heavy란?

Grok 4.20 Heavy는 xAI(일론 머스크의 AI 기업)가 2026년 2월 베타 출시 후 3월 정식 출시한 멀티에이전트 AI 모델이다. 16개의 특화 에이전트가 병렬로 협업하여 수학, 코딩, 금융, 법률 등 다양한 전문 영역에서 뛰어난 성능을 발휘한다. 3조 개의 파라미터와 20만 개의 GPU로 구성된 Colossus 슈퍼클러스터 위에서 동작하며, AIME에서 100%를 달성한 최초의 모델 중 하나다.

핵심 성능

컨텍스트 윈도우: 256K 토큰 (최대 2M 토큰 확장 가능)
주요 벤치마크: AIME 100%, MMLU 91.2%, HumanEval 94.1%, GPQA 87.5%
특화 영역: 수학/추론, 코딩, 실시간 팩트체크, 금융 분석, 법률 분석, 생물의학 연구

경쟁 모델 비교

항목	Grok 4.20 Heavy	GPT-4.1	Gemini 2.5 Pro
MMLU	91.2%	90.2%	~90%
AIME	100%	94%	~90%
HumanEval	94.1%	~90%	~88%
입력 가격	$2/1M	$2/1M	$1.25/1M
출력 가격	$6/1M	$8/1M	$10/1M
컨텍스트	256K~2M	1M	1M

활용 사례

수학/과학 연구: AIME 100% 달성으로 복잡한 수학·과학 문제 해결에 탁월
코딩 자동화: HumanEval 94.1%로 프로덕션 수준의 코드 생성 및 디버깅 가능
금융 분석: Alpha Arena 주식 거래 경진대회에서 유일하게 수익 달성 (+10%~+34.59%)
실시간 팩트체크: X 플랫폼 데이터와 연동한 실시간 정보 검증 및 할루시네이션 최소화

한계 및 단점

SuperGrok Heavy 구독 비용이 월 $300으로 높은 편
16개 에이전트 실행으로 단순 쿼리에는 과도한 지연 및 비용 발생 가능
GPQA Diamond에서 Gemini 3.1 Pro Preview(94.1%)에 비해 87.5%로 뒤처짐
SWE-bench 코딩 벤치마크 일부 항목에서 Claude 3.7 Sonnet에 미치지 못함

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
Grok 4.20 Heavy	xAI	-	-
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1

Grok 4.20 Heavy

Grok 4.20 Heavy란?

핵심 성능

경쟁 모델 비교

활용 사례

한계 및 단점

스펙

Provider

분류

유사 모델 비교

관련 블로그 글

댓글