AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델xAI: Grok 4

Grok 4

xAILLM자연어 처리컴퓨터 비전오디오 처리256K 토큰
2025년 7월 10일Proprietary

Grok

4란?

xAI가 2025년 7월 10일에 출시한 플래그십 AI 모델이다. 일론 머스크가 이끄는 xAI의 Colossus 슈퍼컴퓨터에서 훈련되었으며, "공리 기반(axiom-based) 1차 원리 추론"을 핵심 설계 철학으로 내세운다. SuperGrok 및 Premium+ 구독자와 xAI API를 통해 사용할 수 있다.

주요 특징Grok 4의 차별점은 크게 다섯 가지로 요약된다.

1차 원리 추론 엔진: 기존 패턴 매칭 방식과 달리 공리 기반 논리로 문제를 풀어간다. 수학 벤치마크에서 이 접근법이 빛을 발하는데, AIME 2025에서 95%, MATH Level 5에서 91.7%를 기록했다 (출처: 공식 발표, community benchmarks). 실사용자들도 수학 문제 풀이에서 "단계별로 왜 그런지 설명해주는 느낌"이라는 반응이 많다.

X(트위터) 실시간 통합: 다른 모델과 가장 크게 차이나는 부분이다. X 피드에서 실시간 정보를 끌어와서 시장 분석이나 트렌드 파악을 30초 안에 해치운다는 사용자 평가가 많다. 기자나 트렌드 워처들 사이에서 "소셜 미디어 감정 분석에 유일하게 쓸만한 AI"라는 평가를 받는다.

멀티 에이전트 시스템: Grok 4.20 버전부터 4개 에이전트가 병렬로 협업하는 구조를 도입했다. 코드 작성 시 에지 케이스를 자동으로 고려하고, 반응형 UI 코드를 요청하면 최적화된 구조를 제안해서 작업 시간을 절반으로 줄여준다는 한국 개발자 후기가 있다.

네이티브 도구 사용: 함수 호출(function calling), 구조화된 JSON 출력, 웹 검색, 코드 실행이 모델에 기본 내장되어 있다. Grok 4 Code 변형은 Cursor IDE와 직접 연동된다.

256K 컨텍스트 윈도우: A4 약 384페이지 분량의 텍스트를 한 번에 처리한다. 긴 문서 분석이나 대규모 코드베이스 이해에 유리하다.

Grok 4 주요 특징

할 수 있는 것

수학/과학 추론: Grok 4가 가장 강한 영역이다. 대학원 수준 과학 문제(GPQA Diamond 88%), 고난도 수학(MATH Lvl 5 91.7%, AIME 2025 95%)에서 최상위권 성능을 보인다. 한국 수능 수학 영역 LLM 평가에서 97.8/100으로 2위를 기록했다 (출처: 2026 한국 CSAT LLM 평가 리더보드). Reddit에서는 "수학 문제는 Grok 4가 가장 믿을 만하다"는 의견이 자주 올라온다.

코딩: HumanEval에서 약 98%로 코드 생성 능력이 뛰어나다. 다만 SWE-bench Verified(실제 소프트웨어 버그 수정)에서는 65.8%로 Claude Opus(72%)나 GPT-5(68%)보다 뒤처진다 (출처: community benchmarks). Reddit r/grok 커뮤니티에서는 "벤치마크는 높은데 실제 복잡한 코딩 세션에서는 실망스럽다"는 경고가 반복적으로 올라온다. 간단한 코드 생성은 빠르고 정확하지만, 대규모 프로젝트의 전략적 계획(systematizing)은 경쟁 모델 대비 약하다는 평가다.

실시간 정보 검색: X와 웹 검색이 내장되어 있어서 최신 뉴스, 소셜 미디어 트렌드, 주가 동향 같은 실시간 데이터에 접근할 수 있다. "플러그인 없이 바로 최신 정보를 가져오는 건 Grok만의 장점"이라는 사용자 평가가 있다.

창의적 대화: 사용자 리뷰에서 일관되게 등장하는 강점이다. "차가운 AI가 아니라 흥미로운 친구와 대화하는 느낌", "유머, 말장난, 비유가 진짜 펀치가 있다"는 평가다. 브레인스토밍이나 크리에이티브 작업에서 다른 모델을 압도한다는 의견이 많다.

한계: 전략적 계획 수립, 복잡한 워크플로우 설계, 꼼꼼한 팩트체킹에서는 Claude나 GPT 대비 약하다는 평가가 많다. 특히 코딩에서 "벤치마크 수치와 실제 체감이 다르다"는 피드백이 r/grok에서 반복된다.

성능

벤치마크 점수

벤치마크Grok 4비고
GPQA Diamond88.0%대학원 수준 과학 (출처: 공식 발표)
MMLU-Pro87.0%전문 지식 (출처: 공식 발표)
MATH Lvl 591.7%고난도 수학 (출처: community benchmarks)
HumanEval~98%코드 생성 (출처: 공식 발표)
SWE-bench Verified65.8%실제 버그 수정 (출처: community benchmarks)
AIME 202595%수학 올림피아드 (출처: 공식 발표)
HLE38.6%Humanity's Last Exam (출처: community leaks)
MMMU76.5%멀티모달 이해 (출처: 공식 발표)

Artificial Analysis Intelligence Index v4 기준 42점(126개 모델 중 30위)을 기록했다. 출시 당시 초기 인덱스에서는 73점으로 o3(70점), Gemini 2.5 Pro(70점)를 앞섰지만, 이후 평가 기준이 변경되면서 순위가 조정되었다 (출처: artificialanalysis.ai).

실사용 체감벤치마크만 보면 최상위권이지만, 실제 사용감은 좀 다르다.

  • 속도가 느리다: 출력 속도 52.9 tokens/sec로 평균 이하(중간값 73.4 t/s). 첫 토큰 생성까지 약 15초 걸린다. 기본 질문에 8-12초, 복잡한 질문에 25-40초가 소요된다는 한국 사용자 후기가 있다.
  • 수학은 진짜 강하다: "수학 문제만큼은 다른 모델에 맡기고 싶지 않다"는 반응이 많다.
  • 코딩은 기대 이하: 벤치마크 수치가 높지만 "실제 복잡한 코딩 세션에서는 실망"이라는 Reddit 의견이 반복된다. 간단한 코드는 빠르게 뱉어내지만, 대규모 프로젝트의 체계적 계획은 약하다.
  • 창의성은 최고: "유머와 비유에서 다른 모델을 압도한다"는 평가가 지배적이다.

경쟁 모델 대비: Claude Opus 4.6이 코딩/안정성/팩트체킹에서 1위, GPT-5.4가 범용/컴퓨터 사용에서 1위, Grok 4는 창의성/가격에서 강세를 보인다. "완벽한 1등은 없고, 용도에 맞는 모델을 골라야 한다"는 게 커뮤니티 합의다.

Grok 4 벤치마크 비교

사용 방법

웹/앱 (일반 사용자)

grok.com에서 무료로 사용할 수 있다. 무료 티어는 2시간당 약 10회 프롬프트 제한이 있다. 더 많은 사용량이 필요하면 SuperGrok(30/월)또는XPremium+(30/월) 또는 X Premium+(30/월)또는XPremium+(40/월)에 가입하면 된다. 모델 메뉴에서 "Grok 4"를 수동 선택해야 활성화되는 점에 주의.

API (개발자)

xAI API(api.x.ai)를 통해 접근한다. 모델 ID는 grok-4-0709(별칭: grok-4, grok-4-latest). OpenAI SDK 호환 형식이라 기존 코드에서 base_url만 바꾸면 된다.

python
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_XAI_API_KEY",
    base_url="https://api.x.ai/v1"
)

response = client.chat.completions.create(
    model="grok-4",
    messages=[{"role": "user", "content": "Hello Grok 4"}]
)

공식 문서: docs.x.ai

가격

구독 플랜

플랜월 요금주요 혜택
Free$0~10 프롬프트/2시간, 기본 검색
SuperGrok Lite$10이미지/영상 생성, 높은 사용량
SuperGrok$30DeepSearch, 무제한 이미지 생성
SuperGrok Heavy$300최대 용량, Grok 4 Heavy 접근

X Premium+($40/월)에도 Grok 접근이 포함되어 있어서, X 소셜 미디어 기능까지 필요하다면 이쪽이 더 합리적일 수 있다.

API 비용

  • Input: $3.00 / 1M 토큰
  • Output: $15.00 / 1M 토큰
  • Cached Input: $0.75 / 1M 토큰
  • Blended (3:1): $6.00 / 1M 토큰

경쟁사 대비: Claude Opus 4.6(5/5/5/25)보다는 저렴하고, GPT-5.4(2.50/2.50/2.50/15)와 비슷하다. Grok 4.20(2/2/2/6)이 출시되면서 "무거운 추론은 Grok 4, 가벼운 작업은 4.20으로" 쓰는 패턴이 생겼다. 한국 사용자들 사이에서 SuperGrok Heavy의 $300/월은 "일반인에게는 너무 비싸다"는 반응이 지배적이다.

한국어 토큰 효율: 한국어 토큰 효율에 대한 공식 데이터는 미공개다. 한국어 사용 시 영어보다 토큰 소비가 많을 가능성이 높으며, 실사용자들은 "한국어 품질이 경쟁사 대비 부족하고, 도메인 전문 텍스트에서 직역체가 나온다"고 보고하고 있다.

Grok 4 가격 비교

기술 사양

항목상세
개발사xAI (Elon Musk)
출시일2025년 7월 10일
모델 IDgrok-4-0709
컨텍스트 윈도우256,000 토큰
추론 방식Axiom-based, first-principles logic
학습 데이터 기준일2024년 11월
인프라Colossus Supercomputer
라이선스Proprietary
변형Grok 4 / Grok 4 Heavy / Grok 4 Code
출력 속도52.9 tokens/sec
TTFT~15초
Rate Limit60 req/min, 16K tokens/min
지원 기능Function calling, JSON mode, Image input

파라미터 수는 공식 미공개. Colossus 슈퍼컴퓨터의 GPU 클러스터에서 훈련되었으며, xAI는 훈련 효율을 6배 향상시켰다고 밝혔다. 후속 모델인 Grok 4.20은 컨텍스트 윈도우를 2,000,000 토큰으로 대폭 확장했다.

Grok 4 기술 사양

참고 자료

x.ai

x.ai

Models and Pricing | xAI Docs
docs.x.ai

Models and Pricing | xAI Docs

Grok model descriptions and pricing

Grok 4 - Intelligence, Performance & Price Analysis
artificialanalysis.ai

Grok 4 - Intelligence, Performance & Price Analysis

Analysis of xAI's Grok 4 and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

Grok 4 - API Pricing & Providers
openrouter.ai

Grok 4 - API Pricing & Providers

Grok 4 is xAI's latest reasoning model with a 256k context window. $3 per million input tokens, $15 per million output tokens. 256,000 token context window.

medium.com

medium.com

aitooldiscovery.com

Grok AI Reddit: What 45,000+ Users Actually Think (2026)

What does Reddit really say about Grok AI? Community verdict on Grok vs ChatGPT, pricing tiers, DeepSearch, Aurora images, and whether X Premium is worth it.

Grok Review 2026: We Tested xAI's Model (API, Pricing, 2M Context & Real Performance)
Hack’celeration: The Agency for AI, Growth Hacking, and Automation Excellence

Grok Review 2026: We Tested xAI's Model (API, Pricing, 2M Context & Real Performance)

We tested Grok extensively: 2M-token context window, $0.20-$3.00 API pricing, real-time X data integration. Complete analysis with performance benchmarks, enterprise features & 40% cost savings vs competitors. Pros, cons & verdict. Everything you need to know before choosing your AI model!

Grok
Grok

Grok

Grok is an AI assistant built by xAI. Chat, create images, write code, and get real-time answers from the web and X.

스펙

컨텍스트 윈도우

256K 토큰

라이선스

Proprietary

출시일

2025년 7월 10일

학습 마감일

2025년 7월 31일

가성비 지수

0.5

API 가격 (혼합)

입력 $3.00/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$3.00 / 1M 토큰

출력 (Completion)

$15.00 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

지시따르기최강

95.0

복잡한 지시사항 이해 및 수행

일반지식

87.0

다양한 분야 지식 및 이해

코딩

85.3

코드 생성, 버그 수정, 소프트웨어 엔지니어링

멀티모달

76.5

이미지, 비디오 등 멀티모달 이해

Provider

xAI

xAI의 다른 모델

xAI: Grok 4.20 BetaxAI: Grok 3xAI: Grok 4.20 HeavyxAI: Grok 3 MinixAI: Grok 4 Fast

분류

자연어 처리컴퓨터 비전오디오 처리TransformerLLM

성능 평가

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
Arena Elo1483.01369.21493.0elo

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
Grok 4xAI92.0-
o1-proOpenAI86.4-
o3OpenAI88.847.7
Grok 4.1 FastxAI74.4-
Command ACohere69.1-

이전글

xAI: Grok 3 Mini

다음글

xAI: Grok 4.1 Fast

댓글

0개

댓글을 작성하려면

로그인

해주세요

사용하는 서비스

Grok

Question Answering (질의응답)

유사 모델

OpenAI: o1-pro

OpenAI

OpenAI: o3

OpenAI

xAI: Grok 4.1 Fast

xAI

Cohere: Command A

Cohere

Mistral: Mistral Large 3 2512

Mistral AI

수학/추론

75.0

수학, 과학, 논리적 추론

GPQA
LLM
87.5
64.0
94.3
%
HLE38.630.151.0%
HumanEvalLLM97.086.097.6%
IFEvalLLM95.085.395.9%
MATH Lvl 5LLM99.075.599.2%
MMLU-PROLLM87.073.890.5%
MMMU76.571.185.0%
SWE-bench VerifiedAgentic73.563.680.9%
Mistral Large 3 2512Mistral AI72.8-