Google DeepMind이 2026년 2월 19일 출시한 Gemini 라인업 최상위 추론 모델. GPQA Diamond 94.3%, ARC-AGI-2 77.1%로 추론 벤치마크에서 모든 프론티어 모델을 앞서며, 12의 가격으로 비용 효율성까지 갖춘 것이 핵심이다. @Anthropic: Claude Opus 4.6, @OpenAI: GPT-5와 함께 2026년 3대 프론티어 모델로 분류된다.
추론 벤치마크 올킬 - GPQA Diamond 94.3%(대학원 과학 추론 역대 1위), ARC-AGI-2 77.1%(추상 추론 역대 1위), MMLU 98, MMLU-PRO 90.5로 주요 추론/지식 벤치마크 대부분에서 1위를 기록한다. Artificial Analysis Intelligence Index에서 57점으로 325개 모델 중 1위, Arena Elo 1493으로 실사용자 블라인드 평가에서도 역대 최고 선호도. (출처: artificialanalysis.ai)
네이티브 멀티모달 - 텍스트, 이미지, 오디오, 비디오를 하나의 모델에서 네이티브로 처리한다. Claude와 GPT가 텍스트+이미지만 지원하는 것과 차별화되는 핵심 포인트. PDF, 전체 코드 저장소도 직접 입력 가능.
가격 대비 성능 최강 - 12 per 1M tokens로 Opus 4.6(25) 대비 입력 60%, 출력 52% 저렴하다. 캐싱 적용 시 추가 75% 절감. 같은 수준의 성능을 훨씬 낮은 비용으로 쓸 수 있다.
Thinking Mode 3단계 - low/medium/high 세 단계의 사고 깊이를 선택할 수 있다. 3.1에서 medium이 새로 추가되어 비용-속도-성능 균형을 더 세밀하게 조절 가능.
131 tok/s 출력 속도 - Opus 4.6(43 tok/s)의 3배 수준. 같은 가격대 추론 모델 중 가장 빠르다. (출처: artificialanalysis.ai)

GPQA 94.3%(인간 전문가 정답률 65%의 1.45배), MMLU 98로 물리, 화학, 생물, 법률, 의학 등 거의 모든 학문 분야에서 최고 수준의 정확도를 보인다. Humanity's Last Exam(HLE)에서 44.4%로 전체 모델 중 1위를 기록했다. (출처: artificialanalysis.ai) 한국 수능 테스트에서 AI 최초 전 과목 만점을 달성했다는 보도도 있다. (출처: 국내 매체)
SWE-bench Verified 80.6%로 Opus 4.6(80.8%)에 근소하게 뒤지지만 실질적으로 동급. TerminalBench Hard 53.8%로 터미널 기반 에이전트 작업에서 최고 수준. (출처: artificialanalysis.ai) 1M 컨텍스트로 전체 코드베이스를 로드하고 일괄 분석이 가능.
실사용자 평가: "원샷으로 전체 Windows 11 스타일 웹 OS를 하나의 프롬프트로 생성한 사례가 출시 직후 Reddit에서 화제가 되었다." 다만 "추론, 디자인, 코드 생성 자체는 놀라울 정도로 잘하는데, 실제로 일을 끝내려고 하면 자꾸 넘어진다. Claude Opus와 비교하면 특히 그렇다"는 평가도 존재한다.
BrowseComp 85.9%로 자율 웹 검색/정보 수집 능력에서 압도적 1위. MCP Atlas 69.2%로 도구 조율(tool coordination) 능력도 최상위권. (출처: Google DeepMind Model Card)
비디오, 오디오, 이미지를 네이티브로 분석할 수 있는 유일한 프론티어 모델. 회의 녹음 분석, 비디오 콘텐츠 요약, 이미지 기반 데이터 추출 등에서 경쟁 모델이 할 수 없는 작업을 수행한다. MMMLU(다국어) 92.6%로 Opus 4.6(91.1%), GPT-5.2(89.6%)를 앞선다. (출처: 공식 Model Card)
| 벤치마크 | 점수 | 카테고리 |
|---|---|---|
| GPQA Diamond | 94.3% | LLM 추론 |
| MATH Lvl 5 | 95.0% | LLM 추론 |
| MMLU-PRO | 90.5% | LLM 지식 |
| HumanEval | 94.0% | LLM 코딩 |
| IFEval | 90.0% | LLM 지시 따르기 |
| SWE-bench Verified | 80.6% | Agentic |
| tau-bench Telecom | 99.3% | Agentic |
| TerminalBench Hard | 53.8% | Agentic |
| BrowseComp | 85.9% | Agentic |
| HLE | 44.4% | 추론 |
| AIME 2025 | 91.2% | 수학 |
| MMMU | 81.0% | 멀티모달 |
| ARC-AGI-2 | 77.1% | 추상 추론 |
| MMMLU | 92.6% | 다국어 |
| Arena Elo | 1493 | 사용자 선호도 |
(출처: Google DeepMind 공식 블로그, artificialanalysis.ai, TechCrunch)
추론/지식은 압도적이다. GPQA 94.3%, MMLU 98이라는 수치는 실제로도 체감된다. 과학 논문 분석, 법률 문서 검토, 학술 리서치에서 다른 모델보다 정확도가 높다는 평가가 많다.
코딩은 원샷에 강하다. 복잡한 코드를 한 번에 생성하는 능력은 뛰어나지만, 긴 세션에서 반복적으로 수정하면서 작업하면 불안정해진다. "3 Pro가 출시 때 했어야 할 것을 3.1이 해냈다"는 평이 주류지만, 에이전트 코딩에서 Claude Opus와 비교하면 아직 안정성 차이가 있다.
ARC-AGI-2 77.1%는 화제가 되었지만, 일상적 사용에서 추상적 추론이 2배 좋아졌다는 체감은 드물다. 다만 복잡한 패턴 인식이 필요한 특수한 작업에서는 차이가 느껴진다.
속도는 확실한 장점이다. 131 tok/s로 Opus 4.6(43 tok/s)의 3배. 같은 작업을 훨씬 빠르게 완료한다. 대량 처리나 실시간 응답이 중요한 서비스에서 큰 차이.
할루시네이션은 개선되었지만 여전하다. Omniscience Index에서 할루시네이션율이 88%에서 50%로 줄었지만, 아직 절반은 부정확한 정보를 생성한다는 뜻이기도 하다. (출처: artificialanalysis.ai)

vs @Anthropic: Claude Opus 4.6: GPQA에서 3%p 앞서고(94.3% vs 91.3%), ARC-AGI-2에서 8.3%p 앞선다(77.1% vs 68.8%). 가격은 입력 60%, 출력 52% 저렴. 반면 SWE-bench에서 근소하게 뒤지고(80.6% vs 80.8%), 에이전트 코딩 안정성에서는 Opus가 확실히 앞선다.
vs @OpenAI: GPT-5: 추론 벤치마크 대부분에서 앞서고 가격도 저렴하지만, GPT-5.4는 OSWorld 75%로 컴퓨터 사용에서 앞서고, 코딩에서도 GPT-5.4가 재귀, 에러 처리, 에지 케이스에서 더 안정적이라는 평.
상황별 선택: 추론/지식 + 비용 효율이면 Gemini 3.1 Pro, 에이전트 코딩 안정성이면 Opus 4.6, 빠른 코드 반복이면 GPT-5.4.
Gemini 앱(gemini.google.com)에서 Pro(250/월) 구독으로 이용 가능. NotebookLM에서도 Pro/Ultra 사용자 전용으로 접근 가능.
Google AI Studio(무료 rate-limited), Vertex AI, OpenRouter에서 사용 가능. model ID는 gemini-3.1-pro-preview이다.
from google import genai
client = genai.Client()
response = client.models.generate_content(
model="gemini-3.1-pro-preview",
contents="...",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=10000
)
)
)
Thinking Mode는 thinking_budget으로 사고 깊이를 제어한다. Gemini CLI, Android Studio, GitHub Copilot에서도 지원된다. Function Calling, Search Grounding, Code Execution, Batch API 등 프로덕션 기능을 모두 지원한다.
| 플랜 | 가격 | 3.1 Pro 접근 | 특징 |
|---|---|---|---|
| Free (AI Studio) | $0/월 | O (rate-limited) | 15 RPM |
| Pro | $20/월 | O | 높은 한도, NotebookLM |
| Ultra | $250/월 | O | 최대 한도, Deep Research |
| 티어 | Input | Output | 비고 |
|---|---|---|---|
| Standard (<200K) | $2.00 | $12.00 | 기본 |
| Long Context (>200K) | $4.00 | $18.00 | 2x 입력 프리미엄 |
| Context Caching | $0.50 | - | 75% 절감 |
| Batch Processing | $1.00 | $6.00 | 50% 절감 |
프론티어 모델 중 가격 대비 성능이 가장 좋다는 것이 대체적인 평가다. "같은 수준 벤치마크를 Opus의 40% 가격에 쓸 수 있다"는 점이 실사용자들에게 가장 큰 매력. AI Studio에서 무료 API 접근이 가능한 것도 장점이다(rate limit 있음). 다만 "벤치마크는 최고인데 실제로 복잡한 에이전트 작업을 시키면 Opus보다 불안정하다"는 의견도 있어서, 단순 가격 비교만으로 판단하기는 어렵다. 한국어 토큰 효율은 약 0.6-0.7자/토큰으로 영어 대비 토큰 소모가 크지만, Gemini가 Claude보다 약간 효율적이라는 보고가 있다.

| 항목 | 사양 |
|---|---|
| Provider | Google DeepMind |
| Architecture | MoE Transformer, Thinking Mode |
| Modality | Text + Image + Audio + Video (입력), Text (출력) |
| Context Window | 1,048,576 tokens |
| Max Output | 65,536 tokens |
| Knowledge Cutoff | 2025년 1월 |
| Release Date | 2026년 2월 19일 |
| Parameters | 비공개 |
| License | Proprietary |
| Thinking Levels | low / medium / high |
| API Speed | ~131 tok/s |
| Availability | Google AI Studio, Vertex AI, OpenRouter |
| Products | Gemini App, NotebookLM, Gemini CLI, GitHub Copilot, Android Studio |
| Features | Function Calling, Search Grounding, Code Execution, Batch API, Maps Grounding |

Gemini 3.1 Pro는 아직 Preview 상태다. 전작 Gemini 3 Pro Preview는 2026년 3월 9일에 종료되었으며, 3.1 Pro도 정식 출시(GA) 시 성능, 가격, API 사양이 변경될 수 있다. Google은 "야심적인 에이전트 워크플로우" 등에서 추가 개선을 위해 Preview를 유지하고 있다고 밝혔다.
컨텍스트 윈도우
1.0M 토큰
라이선스
Proprietary
출시일
2026년 2월 19일
학습 마감일
2025년 1월 31일
가성비 지수
0.7
API 가격 (혼합)
입력 $2.00/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$2.00 / 1M 토큰
출력 (Completion)
$12.00 / 1M 토큰
태스크 관련 벤치마크 평균 점수
90.5
다양한 분야 지식 및 이해
90.0
복잡한 지시사항 이해 및 수행
81.2
수학, 과학, 논리적 추론
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| Gemini 3.1 Pro Preview | 93.1 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
81.0
이미지, 비디오 등 멀티모달 이해
76.1
코드 생성, 버그 수정, 소프트웨어 엔지니어링
| AIME 2026 | 91.2 | % |
| Arena Elo | 1493.0 | elo |
| GPQA | 94.3 | % |
| GSM8K | 98.0 | % |
| HLE | 44.4 | % |
| HumanEval | 94.0 | % |
| IFEval | 90.0 | % |
| MATH Lvl 5 | 95.0 | % |
| MMLU | 98.0 | % |
| MMLU-PRO | 90.5 | % |
| MMMU | 81.0 | % |
| SWE-bench Verified | 80.6 | % |
| TerminalBench | 53.8 | % |
| τ-bench | 99.3 | % |
| Mistral Large 3 2512 | 72.8 |