Google DeepMind이 2026년 2월 19일 출시한 Gemini 라인업 최상위 추론 모델. GPQA Diamond 94.3%, ARC-AGI-2 77.1%로 추론 벤치마크에서 모든 프론티어 모델을 앞서며, $2/$ 12의 가격으로 비용 효율성까지 갖춘 것이 핵심이다. @Anthropic: Claude Opus 4.6, @OpenAI: GPT-5와 함께 2026년 3대 프론티어 모델로 분류된다.

주요 특징

추론 벤치마크 올킬 - GPQA Diamond 94.3%(대학원 과학 추론 역대 1위), ARC-AGI-2 77.1%(추상 추론 역대 1위), MMLU 98, MMLU-PRO 90.5로 주요 추론/지식 벤치마크 대부분에서 1위를 기록한다. Artificial Analysis Intelligence Index에서 57점으로 325개 모델 중 1위, Arena Elo 1493으로 실사용자 블라인드 평가에서도 역대 최고 선호도. (출처: artificialanalysis.ai)

네이티브 멀티모달 - 텍스트, 이미지, 오디오, 비디오를 하나의 모델에서 네이티브로 처리한다. Claude와 GPT가 텍스트+이미지만 지원하는 것과 차별화되는 핵심 포인트. PDF, 전체 코드 저장소도 직접 입력 가능.

가격 대비 성능 최강 - $2/$ 12 per 1M tokens로 Opus 4.6( $5/$ 25) 대비 입력 60%, 출력 52% 저렴하다. 캐싱 적용 시 추가 75% 절감. 같은 수준의 성능을 훨씬 낮은 비용으로 쓸 수 있다.

Thinking Mode 3단계 - low/medium/high 세 단계의 사고 깊이를 선택할 수 있다. 3.1에서 medium이 새로 추가되어 비용-속도-성능 균형을 더 세밀하게 조절 가능.

131 tok/s 출력 속도 - Opus 4.6(43 tok/s)의 3배 수준. 같은 가격대 추론 모델 중 가장 빠르다. (출처: artificialanalysis.ai)

Gemini 3.1 Pro Preview 주요 특징

할 수 있는 것

과학/학술 추론

GPQA 94.3%(인간 전문가 정답률 65%의 1.45배), MMLU 98로 물리, 화학, 생물, 법률, 의학 등 거의 모든 학문 분야에서 최고 수준의 정확도를 보인다. Humanity's Last Exam(HLE)에서 44.4%로 전체 모델 중 1위를 기록했다. (출처: artificialanalysis.ai) 한국 수능 테스트에서 AI 최초 전 과목 만점을 달성했다는 보도도 있다. (출처: 국내 매체)

대규모 소프트웨어 엔지니어링

SWE-bench Verified 80.6%로 Opus 4.6(80.8%)에 근소하게 뒤지지만 실질적으로 동급. TerminalBench Hard 53.8%로 터미널 기반 에이전트 작업에서 최고 수준. (출처: artificialanalysis.ai) 1M 컨텍스트로 전체 코드베이스를 로드하고 일괄 분석이 가능.

실사용자 평가: "원샷으로 전체 Windows 11 스타일 웹 OS를 하나의 프롬프트로 생성한 사례가 출시 직후 Reddit에서 화제가 되었다." 다만 "추론, 디자인, 코드 생성 자체는 놀라울 정도로 잘하는데, 실제로 일을 끝내려고 하면 자꾸 넘어진다. Claude Opus와 비교하면 특히 그렇다"는 평가도 존재한다.

자율 웹 리서치

BrowseComp 85.9%로 자율 웹 검색/정보 수집 능력에서 압도적 1위. MCP Atlas 69.2%로 도구 조율(tool coordination) 능력도 최상위권. (출처: Google DeepMind Model Card)

멀티모달 분석

비디오, 오디오, 이미지를 네이티브로 분석할 수 있는 유일한 프론티어 모델. 회의 녹음 분석, 비디오 콘텐츠 요약, 이미지 기반 데이터 추출 등에서 경쟁 모델이 할 수 없는 작업을 수행한다. MMMLU(다국어) 92.6%로 Opus 4.6(91.1%), GPT-5.2(89.6%)를 앞선다. (출처: 공식 Model Card)

안 되는 것

장시간 반복 코딩 세션의 불안정성: 가장 많이 지적되는 약점이다. 긴 반복 코딩 세션에서 상태 퇴화(state degradation)가 발생하며, Gemini CLI에서 파일 수정 중 기능적 코드 청크를 삭제하는 사례가 보고되었다.
레이턴시 스파이크: 피크 시간대에 기본 입력 처리에 104초가 걸리는 사례가 보고됨. TTFT(첫 토큰 지연) 33초로 동급 모델 중앙값(2.6초) 대비 현저히 느리다. (출처: artificialanalysis.ai)
Preview 상태: 아직 정식 출시가 아니라 성능과 가격이 변경될 수 있다. Gemini 3 Pro Preview는 3월 9일에 종료되었다.

성능

벤치마크 결과

벤치마크	점수	카테고리
GPQA Diamond	94.3%	LLM 추론
MATH Lvl 5	95.0%	LLM 추론
MMLU-PRO	90.5%	LLM 지식
HumanEval	94.0%	LLM 코딩
IFEval	90.0%	LLM 지시 따르기
SWE-bench Verified	80.6%	Agentic
tau-bench Telecom	99.3%	Agentic
TerminalBench Hard	53.8%	Agentic
BrowseComp	85.9%	Agentic
HLE	44.4%	추론
AIME 2025	91.2%	수학
MMMU	81.0%	멀티모달
ARC-AGI-2	77.1%	추상 추론
MMMLU	92.6%	다국어
Arena Elo	1493	사용자 선호도

(출처: Google DeepMind 공식 블로그, artificialanalysis.ai, TechCrunch)

벤치마크는 이런데 실제로는

추론/지식은 압도적이다. GPQA 94.3%, MMLU 98이라는 수치는 실제로도 체감된다. 과학 논문 분석, 법률 문서 검토, 학술 리서치에서 다른 모델보다 정확도가 높다는 평가가 많다.

코딩은 원샷에 강하다. 복잡한 코드를 한 번에 생성하는 능력은 뛰어나지만, 긴 세션에서 반복적으로 수정하면서 작업하면 불안정해진다. "3 Pro가 출시 때 했어야 할 것을 3.1이 해냈다"는 평이 주류지만, 에이전트 코딩에서 Claude Opus와 비교하면 아직 안정성 차이가 있다.

ARC-AGI-2 77.1%는 화제가 되었지만, 일상적 사용에서 추상적 추론이 2배 좋아졌다는 체감은 드물다. 다만 복잡한 패턴 인식이 필요한 특수한 작업에서는 차이가 느껴진다.

속도는 확실한 장점이다. 131 tok/s로 Opus 4.6(43 tok/s)의 3배. 같은 작업을 훨씬 빠르게 완료한다. 대량 처리나 실시간 응답이 중요한 서비스에서 큰 차이.

할루시네이션은 개선되었지만 여전하다. Omniscience Index에서 할루시네이션율이 88%에서 50%로 줄었지만, 아직 절반은 부정확한 정보를 생성한다는 뜻이기도 하다. (출처: artificialanalysis.ai)

벤치마크 비교

경쟁 모델 비교

vs @Anthropic: Claude Opus 4.6: GPQA에서 3%p 앞서고(94.3% vs 91.3%), ARC-AGI-2에서 8.3%p 앞선다(77.1% vs 68.8%). 가격은 입력 60%, 출력 52% 저렴. 반면 SWE-bench에서 근소하게 뒤지고(80.6% vs 80.8%), 에이전트 코딩 안정성에서는 Opus가 확실히 앞선다.

vs @OpenAI: GPT-5: 추론 벤치마크 대부분에서 앞서고 가격도 저렴하지만, GPT-5.4는 OSWorld 75%로 컴퓨터 사용에서 앞서고, 코딩에서도 GPT-5.4가 재귀, 에러 처리, 에지 케이스에서 더 안정적이라는 평.

상황별 선택: 추론/지식 + 비용 효율이면 Gemini 3.1 Pro, 에이전트 코딩 안정성이면 Opus 4.6, 빠른 코드 반복이면 GPT-5.4.

사용 방법

일반 사용자

Gemini 앱(gemini.google.com)에서 Pro( $20/월) 또는 Ultra($ 250/월) 구독으로 이용 가능. NotebookLM에서도 Pro/Ultra 사용자 전용으로 접근 가능.

개발자 (API)

Google AI Studio(무료 rate-limited), Vertex AI, OpenRouter에서 사용 가능. model ID는 gemini-3.1-pro-preview이다.

python

from google import genai

client = genai.Client()
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="...",
    config=genai.types.GenerateContentConfig(
        thinking_config=genai.types.ThinkingConfig(
            thinking_budget=10000
        )
    )
)

Thinking Mode는 thinking_budget으로 사고 깊이를 제어한다. Gemini CLI, Android Studio, GitHub Copilot에서도 지원된다. Function Calling, Search Grounding, Code Execution, Batch API 등 프로덕션 기능을 모두 지원한다.

가격

구독 플랜

플랜	가격	3.1 Pro 접근	특징
Free (AI Studio)	$0/월	O (rate-limited)	15 RPM
Pro	$20/월	O	높은 한도, NotebookLM
Ultra	$250/월	O	최대 한도, Deep Research

API 가격 (1M 토큰당)

티어	Input	Output	비고
Standard (<200K)	$2.00	$12.00	기본
Long Context (>200K)	$4.00	$18.00	2x 입력 프리미엄
Context Caching	$0.50	-	75% 절감
Batch Processing	$1.00	$6.00	50% 절감

가성비 평가

프론티어 모델 중 가격 대비 성능이 가장 좋다는 것이 대체적인 평가다. "같은 수준 벤치마크를 Opus의 40% 가격에 쓸 수 있다"는 점이 실사용자들에게 가장 큰 매력. AI Studio에서 무료 API 접근이 가능한 것도 장점이다(rate limit 있음). 다만 "벤치마크는 최고인데 실제로 복잡한 에이전트 작업을 시키면 Opus보다 불안정하다"는 의견도 있어서, 단순 가격 비교만으로 판단하기는 어렵다. 한국어 토큰 효율은 약 0.6-0.7자/토큰으로 영어 대비 토큰 소모가 크지만, Gemini가 Claude보다 약간 효율적이라는 보고가 있다.

가격 비교

기술 사양

항목	사양
Provider	Google DeepMind
Architecture	MoE Transformer, Thinking Mode
Modality	Text + Image + Audio + Video (입력), Text (출력)
Context Window	1,048,576 tokens
Max Output	65,536 tokens
Knowledge Cutoff	2025년 1월
Release Date	2026년 2월 19일
Parameters	비공개
License	Proprietary
Thinking Levels	low / medium / high
API Speed	~131 tok/s
Availability	Google AI Studio, Vertex AI, OpenRouter
Products	Gemini App, NotebookLM, Gemini CLI, GitHub Copilot, Android Studio
Features	Function Calling, Search Grounding, Code Execution, Batch API, Maps Grounding

기술 사양

Preview 상태 주의

Gemini 3.1 Pro는 아직 Preview 상태다. 전작 Gemini 3 Pro Preview는 2026년 3월 9일에 종료되었으며, 3.1 Pro도 정식 출시(GA) 시 성능, 가격, API 사양이 변경될 수 있다. Google은 "야심적인 에이전트 워크플로우" 등에서 추가 개선을 위해 Preview를 유지하고 있다고 밝혔다.

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
Gemini 3.1 Pro Preview	Google	93.1	88.4
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-

Gemini 3.1 Pro Preview

주요 특징

할 수 있는 것

과학/학술 추론

대규모 소프트웨어 엔지니어링

자율 웹 리서치

멀티모달 분석

안 되는 것

성능

벤치마크 결과

벤치마크는 이런데 실제로는

경쟁 모델 비교

사용 방법

일반 사용자

개발자 (API)

가격

구독 플랜

API 가격 (1M 토큰당)

가성비 평가

기술 사양

Preview 상태 주의

참고 자료

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

AIME 2026		91.2	89.1	95.8	%
Arena Elo		1493.0	1369.2	1493.0	elo
GPQA	LLM	94.3	64.0	94.3	%
GSM8K		98.0	89.7	99.0	%
HLE		44.4	30.1	51.0	%
HumanEval	LLM	94.0	86.0	97.6	%
IFEval	LLM	90.0	85.3	95.9	%
MATH Lvl 5	LLM	95.0	75.5	99.2	%
MMLU		98.0	84.2	98.0	%
MMLU-PRO	LLM	90.5	73.8	90.5	%
MMMU		81.0	71.1	85.0	%
SWE-bench Verified	Agentic	80.6	63.6	80.9	%
TerminalBench		53.8	41.3	59.3	%
τ-bench	Agentic	99.3	61.7	99.3	%