AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델Google: Gemma 4

Gemma 4

GoogleLMM시각-언어 (Vision-Language)오디오-언어 (Audio-Language)통합 모달리티 (Any-to-Any)262K 토큰
2026년 4월 2일Apache 2.0

Google DeepMind이 2026년 4월 2일 공개한 오픈 웨이트 멀티모달 AI 모델 패밀리. Gemini 3 연구를 기반으로 구축되었으며, Apache 2.0 라이선스로 배포되어 상업적 활용이 완전히 자유롭다. E2B(2.3B), E4B(4.5B), 26B A4B(MoE), 31B Dense 4가지 크기로 제공되며, "파라미터당 최고 지능"을 표방한다. 출시 이틀 만에 Hacker News 1,700+ 포인트, Hugging Face 80K+ 다운로드를 기록하며 오픈 모델 역사상 가장 뜨거운 반응을 이끌어냈다.

주요 특징

Apache 2.0 완전 자유 라이선스 - Gemma 4의 가장 큰 변화는 라이선스다. 이전 Gemma 시리즈의 제한적 라이선스에서 Apache 2.0으로 전환하여 MAU 제한, 사용 정책 등 어떤 제약도 없다. Llama 4의 700M MAU 제한, Qwen의 사용 정책과 비교하면 확실한 차별점이다. 한 커뮤니티 사용자의 평가: "구글이 결국 판을 바꿨다. 이제 기업들도 데이터 외부 유출 걱정 없이 자체 AI를 직접 구축할 수 있게 됐다." (출처: Threads @choi.openai)

네이티브 멀티모달 - 텍스트, 이미지, 비디오, 오디오를 통합 처리한다. 오픈 모델 중 이 네 가지를 모두 네이티브로 지원하는 것은 Gemma 4가 유일하다. GUI 요소 감지, 오브젝트 검출, 비디오 이해, 오디오 전사 및 Q&A까지 가능. (출처: 공식 블로그)

Codeforces Elo 2150 - Gemma 3의 110에서 2150으로, 역대 오픈 모델 세대 간 최대 도약. 코딩 능력이 근본적으로 달라졌다. (출처: Google model card)

Arena Elo 1452 (31B) - 31B Dense가 Arena AI 텍스트 리더보드 오픈 모델 3위. 26B MoE도 1441로 6위. 4B 활성 파라미터로 1441을 달성한 것은 효율성 측면에서 놀라운 수치다. (출처: lmarena.ai)

온디바이스 실행 - E2B/E4B는 Android AICore에서 직접 실행 가능. NVIDIA Jetson부터 RTX GPU, AMD ROCm, Google TPU까지 폭넓은 하드웨어 지원. Django 공동 창시자 Simon Willison은 "노트북에서 돌아가는 모델 중 최고의 결과물을 뽑아냈다"고 평가. (출처: Hacker News)

Gemma 4 주요 특징

할 수 있는 것

로컬 AI 에이전트 구축

네이티브 함수 호출(Function Calling)과 구조화된 JSON 출력을 지원하여, 외부 API 없이 로컬에서 멀티스텝 에이전트 워크플로우를 구축할 수 있다. 26B MoE 모델은 3.8B 활성 파라미터로 빠르게 동작하면서도 높은 품질을 유지한다. 실사용자 평가: "6개월 전에 40GB VRAM이 필요했던 수준의 추론 능력을 이제 노트북에서 실행할 수 있다." (출처: Reddit)

다만 초기 버전에서 26B MoE가 프롬프트 규칙을 무시하고 도구를 할루시네이션하는 문제가 보고되었다. Hacker News 사용자: "도구를 안 쓰는 게 할루시네이션하며 쓰는 것보다 낫다." Ollama, vLLM 등 서드파티 구현체의 토크나이저/양자화 호환 문제도 출시 직후 발견되었으므로, 프로덕션 도입 전 충분한 테스트가 필요하다. (출처: Hacker News)

코딩 어시스턴트

LiveCodeBench v6 80.0%, Codeforces Elo 2150으로 오픈 모델 중 최고 수준의 코딩 능력. Python, JavaScript 생성 속도가 20% 향상되었으며, 이미지/스크린샷 기반 코드 자동 생성도 가능. 140개 이상 프로그래밍 언어를 지원한다. 4090에서 150 tok/s로 Qwen 3.5 대비 50% 빠른 출력 속도를 보여준다. (출처: Google model card, Reddit)

멀티모달 분석

비디오 이해, 오디오 전사, 이미지 OCR, 차트 분석을 하나의 모델에서 처리. 회의 녹음 분석, 제품 이미지 분류, 문서 디지털화 등에 활용 가능. MMMU Pro 76.9%로 비전 추론에서도 오픈 모델 최고 수준. 단, 오디오 입력은 소형 E2B/E4B 모델에서만 지원되며 26B/31B에서는 불가하다. (출처: Google model card)

온디바이스/프라이버시 중심 AI

데이터를 외부로 전송하지 않고 기기 내에서 처리. 의료, 금융, 법률 등 데이터 보안이 중요한 분야에서 핵심적. E2B/E4B는 Android 기기에서 오프라인 실행하며 배터리 60% 절감. NVIDIA도 "RTX에서 Gemma 4로 로컬 에이전트 AI를 구현하라"며 적극적으로 지원하고 있다. (출처: NVIDIA 블로그, Android Developers Blog)

안 되는 것

  • 중국 오픈 모델 대비 일부 영역 열세: Qwen 3.5는 MMLU-PRO(86.1% vs 85.2%), GPQA(85.5% vs 84.3%)에서 근소하게 앞서고, CJK 언어(일본어 87.8% vs 76.2%)와 대규모 모델(397B)에서 확실한 우위. (출처: ai.rs)
  • 26B MoE의 장문 컨텍스트 약점: 128K 이상 장문 컨텍스트 처리에서 31B Dense(66.4%) 대비 크게 낮은 44.1%를 기록. 긴 문서 작업에는 31B Dense를 사용해야 한다. (출처: Google model card)
  • 26B MoE 속도 이슈: 일부 하드웨어에서 MoE 모델이 예상보다 느리다는 보고. "Gemma 4 26B-A4B에서 11 tok/s인데 같은 하드웨어에서 Qwen 3.5 35B-A3B는 60+ tok/s" (출처: Hacker News)
  • Extended thinking은 31B 모델에서만 활성화된다.
  • Lazy 출력 경향: 일부 사용자가 "Gemma 4 is Quite Lazy"라며 응답 길이가 짧거나 세부 사항을 생략하는 경향을 지적했다. (출처: Reddit)

성능

벤치마크 결과 (31B Dense 기준)

벤치마크점수카테고리
MMLU-PRO85.2%지식 (출처: Google model card)
GPQA Diamond84.3%추론 (출처: Google model card)
AIME 202689.2%수학 (출처: Google model card)
HumanEval94.1%코딩 (출처: Google model card)
LiveCodeBench v680.0%코딩 (출처: Google model card)
tau-bench (avg)76.9%에이전트 (출처: Google model card)
MMMU Pro (Vision)76.9%멀티모달 (출처: Google model card)
HLE (no tools)19.5%추론 (출처: Google model card)
GSM8K96.2%수학 (출처: Google model card)
MRCR v2 (128K)66.4%장문 컨텍스트 (출처: Google model card)
MMLU88.4%지식 (출처: Google model card)
Codeforces Elo2150코딩 (출처: Google model card)
Arena Elo1452사용자 선호도 (출처: lmarena.ai)

벤치마크는 이런데 실제로는

코딩 능력 도약은 실제로 체감된다. Codeforces Elo가 110에서 2150으로 뛴 것은 과장이 아니다. Reddit 사용자들도 "역대 최고 오픈소스 모델"이라는 평가를 내놓고 있다. 속도와 프라이버시를 중시하는 개발자들에게 특히 인기가 높다.

31B vs 프론티어 모델 격차는 존재한다. MMLU-PRO 85.2%는 Gemini 3.1 Pro의 90.5%와 비교하면 선방이지만, SWE-bench Verified 같은 에이전트 코딩에서는 프론티어 모델(80%+)과 상당한 격차가 있다. Artificial Analysis Intelligence Index에서 31B(Reasoning)는 39점으로, 프론티어 모델들(60+)과는 확실한 차이를 보인다. (출처: artificialanalysis.ai)

커뮤니티에서 Qwen 3.5와 비교가 활발하다. ai.rs 비교에 따르면, 소형~중형 모델에서는 Gemma 4가 리드하지만, 대규모 모델과 CJK 언어 성능에서는 Qwen 3.5가 앞선다. 독일어, 아랍어, 베트남어, 프랑스어 등 비영어 유럽/동남아 언어에서는 Gemma 4가 "다른 차원"이라는 평가를 받고 있다. (출처: ai.rs, Hacker News)

E2B 모델의 성능이 놀랍다. 2.3B 파라미터 모델이 Gemma 3 27B의 대부분 벤치마크를 이긴다. 이 점은 여러 커뮤니티에서 반복적으로 언급되는 핵심 포인트다. (출처: latent.space, DEV Community)

한국어는 오픈 모델 중 최고 수준이다. "상업적 이용이 가능한 로컬 모델 중에서 가장 한국어를 잘 이해한다"는 평가가 있다. 한국어 토큰 효율 관련 구체적 수치는 미공개이나, Gemma 3부터 도입된 새 토크나이저가 CJK 텍스트 인코딩 효율을 크게 개선했다는 점이 공식적으로 확인된다. 다만 일본어 벤치마크(76.2%)에서 Qwen 3.5(87.8%)에 뒤지는 만큼, 한국어에서도 유사한 격차가 있을 가능성은 있다. (출처: Hugging Face 블로그, ai.rs)

벤치마크 비교

경쟁 모델 비교

vs Qwen 3.5: MMLU-PRO(85.2% vs 86.1%), GPQA(84.3% vs 85.5%)에서 Qwen이 근소하게 앞서지만, AIME 2026(89.2%)과 코딩에서 Gemma 4가 우세. Qwen은 CJK 언어(87.8% vs 76.2% 일본어)와 397B 대규모 모델에서 확실한 우위. 멀티모달과 Apache 2.0 라이선스는 Gemma 4의 강점. (출처: ai.rs, maniac.ai)

vs Llama 4 Scout: 벤치마크 대부분에서 Gemma 4가 앞서지만, Llama 4의 10M 토큰 컨텍스트는 다른 오픈 모델이 따라올 수 없는 킬러 피처. 전체 코드베이스나 초장문 문서 처리가 필요하면 Llama 4. 라이선스는 Llama 4(700M MAU 제한)보다 Gemma 4(Apache 2.0)가 확실히 유리. (출처: lushbinary.com)

vs 프론티어 모델 (Opus 4.6, GPT-5.4, Gemini 3.1 Pro): 벤치마크 격차는 있지만 비용이 0원(셀프호스팅)이라는 점에서 차원이 다른 가치. 데이터 프라이버시, 커스텀 파인튜닝, 오프라인 환경에서는 프론티어 모델이 대체할 수 없다.

상황별 선택: 코딩 어시스턴트/에이전트(로컬) -> Gemma 4 26B MoE, 초장문 컨텍스트 -> Llama 4 Scout, 다국어/CJK -> Qwen 3.5, 최대 품질(비용 무관) -> Gemini 3.1 Pro / Opus 4.6.

사용 방법

로컬 실행

Ollama, LM Studio, vLLM 등에서 즉시 실행 가능. Hugging Face에서 가중치를 다운로드하여 사용한다. 출시 직후 서드파티 구현체에서 토크나이저/양자화 호환 문제가 발견되었으므로, 반드시 최신 버전을 사용해야 한다. (출처: Hacker News)

bash
# Ollama
ollama run gemma4:31b

# LM Studio
# GUI에서 gemma-4-31b 검색 후 다운로드

API

Google AI Studio에서 무료(rate-limited) 사용 가능. OpenRouter, Together AI, Lightning AI 등 서드파티에서도 저렴하게 제공한다. Android AICore Developer Preview를 통해 온디바이스 배포도 가능. (출처: ai.google.dev)

python
from google import genai

client = genai.Client()
response = client.models.generate_content(
    model="gemma-4-31b-it",
    contents="..."
)

가격

셀프 호스팅완전 무료(Apache 2.0). 하드웨어 비용만 필요.

모델파라미터활성 파라미터최소 VRAM컨텍스트
E2B2.3B2.3B~3 GB128K
E4B4.5B4.5B~6 GB128K
26B A4B (MoE)26B3.8B~18 GB256K
31B Dense31B31B~22 GB256K

API 가격

ProviderInputOutputSpeed
Google AI Studio무료 (rate-limited)무료35.7 t/s
Lightning AI$0.14/1M$0.40/1M105.5 t/s
OpenRouter$0.14/1M$0.40/1Mvaries
Together AI$0.10/1M$0.10/1Mvaries

(출처: openrouter.ai, artificialanalysis.ai)

가성비 평가

오픈 모델이므로 셀프 호스팅 시 비용은 순수 하드웨어 비용뿐이다. 프론티어 모델과 비교하면 차원이 다른 경제성. "31B 모델이 GPT-4o 수준의 성능을 22GB VRAM으로 로컬에서 돌릴 수 있다"는 것이 핵심 가치. API 사용 시에도 OpenRouter 기준 0.14/0.14/0.14/0.40으로 Gemini 3.1 Pro(2/2/2/12)의 1/14~1/30 수준이다. Together AI는 0.10/0.10/0.10/0.10으로 더 저렴하다. 단, 프론티어 모델 대비 품질 격차가 있으므로 "공짜라서 좋은 것"과 "실제로 프로덕션에 쓸 수 있는 것"은 구분해야 한다. Lightning AI에서 105.5 t/s의 빠른 속도를 제공한다는 점도 API 사용자에게 매력적이다. (출처: artificialanalysis.ai)

한국어 토큰 효율 데이터 미공개. Gemma 3부터 도입된 새 토크나이저가 CJK 텍스트 인코딩 효율을 개선했으나, 영어/코드 대비 약간의 토큰 수 증가가 있다. (출처: Hugging Face 블로그)

가격 비교

기술 사양

항목사양
ProviderGoogle DeepMind
Base ResearchGemini 3
ArchitectureDense (31B, E2B, E4B) + MoE (26B A4B)
ModalityText + Image + Video + Audio (입력), Text (출력)
Context Window128K (E2B/E4B), 256K (26B/31B)
Parameters2.3B / 4.5B / 26B(3.8B active) / 31B
Max Output131,072 tokens (31B)
LicenseApache 2.0
Release Date2026년 4월 2일
Languages140+
FeaturesFunction Calling, Structured JSON, System Instructions
Thinking Mode31B only
Downloads400M+ (Gemma 시리즈 누적)
Variants100,000+ (Gemmaverse)

(출처: ai.google.dev/gemma/docs/core/model_card_4)

기술 사양

참고 자료

Gemma 4: Byte for byte, the most capable open models
Google

Gemma 4: Byte for byte, the most capable open models

Gemma 4: our most intelligent open models to date, purpose-built for advanced reasoning and agentic workflows.

Bring state-of-the-art agentic skills to the edge with Gemma 4- Google Developers Blog
developers.googleblog.com

Bring state-of-the-art agentic skills to the edge with Gemma 4- Google Developers Blog

Welcome Gemma 4: Frontier multimodal intelligence on device
huggingface.co

Welcome Gemma 4: Frontier multimodal intelligence on device

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Karta e modelit Gemma 4  |  Google AI for Developers
Google AI for Developers

Karta e modelit Gemma 4  |  Google AI for Developers

Gemma 4 vs Qwen 3.5 vs Llama 4: Updated Benchmarks, New Leader
ai.rs

Gemma 4 vs Qwen 3.5 vs Llama 4: Updated Benchmarks, New Leader

Gemma 4 benchmarks obliterate Gemma 3: 89% on AIME math, 80% on LiveCodeBench, 84% on GPQA. The MoE variant matches 31B quality with 4B active params. Apache 2.0 licensed.

Gemma 4 31B - Intelligence, Performance & Price Analysis
artificialanalysis.ai

Gemma 4 31B - Intelligence, Performance & Price Analysis

Analysis of Google's Gemma 4 31B (Reasoning) and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

Gemma 4 31B - API Pricing & Providers
openrouter.ai

Gemma 4 31B - API Pricing & Providers

Gemma 4 31B Instruct is Google DeepMind's 30.7B dense multimodal model supporting text and image input with text output. $0.14 per million input tokens, $0.40 per million output tokens. 262,144 token context window, maximum output of 131,072 tokens. Higher uptime with 5 providers.

news.ycombinator.com

news.ycombinator.com

deepmind.google

deepmind.google

From RTX to Spark: NVIDIA Accelerates Gemma 4 for Local Agentic AI
NVIDIA Blog

From RTX to Spark: NVIDIA Accelerates Gemma 4 for Local Agentic AI

Gemma 4 brings powerful reasoning, coding and multimodal AI directly to NVIDIA RTX PCs, DGX Spark and edge devices.

스펙

컨텍스트 윈도우

262K 토큰

라이선스

Apache 2.0

출시일

2026년 4월 2일

가성비 지수

-0.0

API 가격 (혼합)

입력 $140000/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$0.14 / 1M 토큰

출력 (Completion)

$0.40 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

코딩최강

94.1

코드 생성, 버그 수정, 소프트웨어 엔지니어링

일반지식

85.2

다양한 분야 지식 및 이해

멀티모달

76.9

이미지, 비디오 등 멀티모달 이해

Provider

Google

Google의 다른 모델

Google: Gemini 2.5 FlashGoogle: Gemini 3.1 Pro PreviewGoogle: Gemini 3 Pro PreviewGoogle: Gemma 3 27BGoogle: Gemma 2 27B

분류

시각-언어 (Vision-Language)오디오-언어 (Audio-Language)통합 모달리티 (Any-to-Any)Multimodal TransformerLMM

성능 평가

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
AIME 202689.289.195.8%
Arena Elo

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
Gemma 4Google86.2-
Nova Pro 1.0Amazon68.4-
Claude 3 HaikuAnthropic46.5-
Nova Premier 1.0Amazon73.2-
GPT-4o-miniOpenAI62.6

관련 블로그 글

비교2026년 3월 28일

ChatGPT vs Claude vs Gemini: 2025년 어떤 AI를 써야 할까?

## 세 AI, 뭐가 다를까? ChatGPT(OpenAI), Claude(Anthropic), Gemini(Google)는 2025년 현재 가장 많이 쓰이는 AI 챗봇입니다. 모두 뛰어나지만 각자 강점이 다릅니다. 어느 것이 "최고"냐가 아니라 **어떤 일에 어느 것을 쓰면 되는지**가 핵심입니다. --- ## 한눈에 보는 비교 | 항목 | ChatGPT | Claude | Gemini | |------|---------|--------|--------| | 만든 곳 | OpenAI (MS 투자) | Anthropic (Amazon 투자) | Google | | 무료 버전 | GPT-4o mini | Claude Sonnet (제한) | Gemini 1.5 Flash | | 유료 버전 | $20/월 (Plus) | $20/월 (Pro) | $20/월 (Advanced) | | 컨텍스트 길이 | 128K 토큰 | 200K 토큰 | 1M 토큰 | | 한국어 수준 | ★★★★ | ★★★★★ | ★★★★ | | 이미지 생성 | ✅ (DALL-E 3) | ❌ | ✅ | | 웹 검색 | ✅ | ✅ | ✅ | | 파일 업로드 | ✅ | ✅ | ✅ | --- ## 업무별 최강자 ### 글쓰기 & 문서 작성 — 🏆 Claude Claude는 자연스러운 문체와 논리적 구성에서 두드러집니다. 긴 보고서, 기획서, 에세이, 블로그 글 등에서 가장 매끄러운 한국어 결과물을 냅니다. "사람이 쓴 것 같다"는 평가를 가장 많이 받는 AI입니다. **시도해볼 것**: 같은 주제로 세 AI에게 블로그 글 초안을 요청해보세요. 차이를 바로 느낄 수 있습니다. ### 코딩 & 개발 — 🏆 ChatGPT (GPT-4o) 개발자 커뮤니티에서 가장 선호하는 코딩 AI입니다. 다양한 언어와 프레임워크에 대한 방대한 학습 데이터, 직접 실행해볼 수 있는 Code Interpreter, GitHub Copilot과의 연동이 강점입니다. Claude도 코딩 실력은 뛰어나지만 ChatGPT의 생태계가 더 풍부합니다. ### 정보 검색 & 최신 정보 — 🏆 Gemini Google 검색 엔진과 연동되어 실시간 정보를 가장 잘 가져옵니다. 뉴스, 주가, 날씨, 최근 이벤트 등 최신 정보가 필요한 작업에 유리합니다. Google Workspace (Gmail, Docs, Sheets)와의 통합도 강점입니다. ### 긴 문서 분석 — 🏆 Claude 200K 토큰의 컨텍스트 창은 경쟁사 대비 월등합니다. 100페이지 이상의 보고서, 계약서, 논문을 한 번에 넣고 분석 요청이 가능합니다. 법무팀, 연구자, 투자자들이 Claude를 선호하는 이유입니다. ### 창작 & 스토리텔링 — 🏆 Claude 소설, 시나리오, 광고 카피 등 창의적 글쓰기에서 가장 독창적이고 일관성 있는 결과물을 냅니다. 캐릭터 묘사, 대화 구성, 세계관 설정 등에서 타 AI보다 확실히 앞섭니다. ### 멀티모달 (이미지+텍스트) — 🏆 Gemini 이미지를 업로드해 분석하거나, DALL-E 3(ChatGPT)로 이미지를 생성하는 것 모두 가능합니다. 동영상 분석은 현재 Gemini만 지원합니다. --- ## 무료 버전으로 충분할까? **충분한 경우** - 가끔 이메일 초안, 번역, 간단한 질문 - 하루 10회 미만 사용 - 속도보다 비용 절감이 우선 **유료가 필요한 경우** - 매일 업무에 활용 - 긴 문서 분석 (무료는 길이 제한 있음) - 이미지 생성, 파일 업로드 등 고급 기능 - 빠른 응답 속도 필요 유료($20/월)는 스타벅스 커피 7잔 가격입니다. 업무에 실제로 활용한다면 가성비는 압도적입니다. --- ## 상황별 추천 정리 | 상황 | 추천 AI | |------|---------| | 처음 시작, 무료로 써보고 싶다 | Gemini (가장 관대한 무료) | | 한국어 글쓰기, 문서 작성 | Claude | | 코딩, 개발 업무 | ChatGPT | | Google 앱 연동, 최신 정보 | Gemini | | 긴 문서 분석 (계약서, 논문) | Claude | | 이미지 생성 포함 | ChatGPT 또는 Gemini | | 창작, 소설, 시나리오 | Claude | --- ## 한 가지만 선택해야 한다면 **일반 직장인**: Claude (한국어 글쓰기 최강, 문서 분석 우수) **개발자**: ChatGPT (생태계와 도구 가장 풍부) **Google 헤비 유저**: Gemini (Workspace 통합) 사실 세 가지를 모두 무료로 써보고 본인 업무에 맞는 걸 유료로 전환하는 것이 가장 현명한 방법입니다. --- ## Footnotes [^1]: LMSYS Chatbot Arena 2025 기준: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro가 상위권을 번갈아 차지하며 실력 차이가 크지 않음 [^2]: Anthropic에 따르면 Claude의 컨텍스트 200K 토큰은 약 15만 단어, 일반 소설 1권 분량에 해당 [^3]: 2024년 기준 ChatGPT 월간 활성 사용자 2억 명, Claude 약 1,000만 명, Gemini 약 5,000만 명

이전글

Google: Gemma 3 4B

다음글

Meta: Llama 3.1 405B (base)

댓글

0개

댓글을 작성하려면

로그인

해주세요

사용하는 서비스

Google AI Studio

Code Generation (코드 생성)

관련 기사

ChatGPT vs Claude vs Gemini: 2025년 어떤 AI를 써야 할까?

COMPARISON

이번 주 AI 모델 위클리 — 2026-04-03: Google Gemma 4 완전 분석

WEEKLY

유사 모델

Amazon: Nova Pro 1.0

Amazon

Anthropic: Claude 3 Haiku

Anthropic

Amazon: Nova Premier 1.0

수학/추론

64.3

수학, 과학, 논리적 추론

1452.0
1369.2
1493.0
elo
GPQALLM84.364.094.3%
GSM8K96.289.799.0%
HLE19.530.151.0%
HumanEvalLLM94.186.097.6%
MMLU88.484.298.0%
MMLU-PROLLM85.273.890.5%
MMMU76.971.185.0%
MRCR v266.471.276.0%
τ-benchAgentic76.961.799.3%
-
GPT-4oOpenAI66.2-
위클리2026년 4월 3일

이번 주 AI 모델 위클리 — 2026-04-03: Google Gemma 4 완전 분석

# 이번 주 AI 모델 위클리 — 2026-04-03 ## 이번 주 하이라이트 2026년 4월 첫째 주, AI 업계에서 가장 주목할 만한 사건은 단연 **Google DeepMind의 Gemma 4 공개**였습니다. 오픈 웨이트 모델의 역사에서 새로운 이정표를 세운 Gemma 4는 멀티모달 처리 능력과 온디바이스 실행 가능성을 동시에 갖춘 혁신적인 모델 패밀리입니다. 이번 위클리에서는 Gemma 4의 모든 것을 심층 분석하고, 이번 주 AI 서비스 씬의 주요 트렌드도 함께 살펴봅니다. --- ## 신규 등록 모델: Google Gemma 4 ### 출시 배경과 의미 2026년 4월 2일, Google DeepMind는 **Gemma 4**를 공식 발표했습니다. Gemma 시리즈의 네 번째 세대인 이 모델은 Google의 최신 플래그십 모델인 Gemini 3와 동일한 연구 토대 위에 구축되었습니다. 이전 Gemma 버전들이 주로 텍스트 처리에 집중했다면, Gemma 4는 텍스트·이미지·비디오·오디오를 모두 입력으로 받는 **완전한 멀티모달 모델 패밀리**로 진화했습니다. 특히 이번 출시에서 주목할 점은 라이선스 정책의 변화입니다. Google은 Gemma 4를 **Apache 2.0 라이선스**로 배포하기로 결정했습니다. 이는 이전 Gemma 버전들의 커스텀 라이선스보다 훨씬 자유롭고 상업적 활용에 제약이 없습니다. 기업들은 별도의 사용자 수 제한 없이, 수용 가능한 사용 정책 강제 없이 Gemma 4를 자신들의 제품에 통합할 수 있습니다. ### 모델 라인업: 4가지 크기 Gemma 4는 용도와 환경에 따라 선택할 수 있는 4가지 크기로 제공됩니다. | 모델 | 유효 파라미터 | 전체 파라미터 | 컨텍스트 | 특징 | |------|-------------|-------------|---------|------| | E2B | 2.3B | 5.1B | 128K | 최고 속도, 저전력, 오디오 지원 | | E4B | 4.5B | 8B | 128K | 복잡한 온디바이스 태스크, 오디오 지원 | | 26B A4B | 4B 활성 | 26B 전체 | 256K | MoE 아키텍처, 효율적 추론 | | 31B Dense | 31B | 31B | 256K | 최고 성능, 추론 모드 지원 | E2B와 E4B 앞의 E는 Effective(유효)의 약자로, 이 모델들은 Per-Layer Embeddings라는 혁신적인 기법을 사용합니다. 각 디코더 레이어에 보조 임베딩 신호를 주입하여, 실제 파라미터 수보다 훨씬 적은 계산 자원으로 높은 성능을 달성합니다. E2B는 이전 Gemma 버전 대비 3배 빠른 추론 속도와 60% 낮은 배터리 소비를 자랑합니다. ### 핵심 벤치마크 성능 Gemma 4 31B Instruction Tuned 기준의 주요 벤치마크 결과는 동급 오픈 소스 모델 중 최상위권을 기록합니다. | 벤치마크 | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | |---------|-------------|-----------------|-------------|-------------| | MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | | LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | | GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | | MMMU Pro Vision | 76.9% | 73.8% | 52.6% | 44.2% | | Long Context 128K | 66.4% | 44.1% | 25.4% | 19.1% | 특히 GPQA Diamond 84.3%는 박사급 전문 지식이 필요한 문제에서 인간 전문가 수준에 근접하는 성능을 보여주며, LiveCodeBench 80.0%는 실제 코딩 과제에서 매우 높은 실력을 입증합니다. 추정 Chatbot Arena 점수도 31B 기준 약 1452점으로, 오픈 웨이트 모델 중 최상위에 위치합니다. ### 혁신적인 멀티모달 아키텍처 Gemma 4의 기술적 혁신은 아키텍처에서도 두드러집니다. **교차 어텐션 레이어**: 로컬 슬라이딩 윈도우 어텐션과 글로벌 풀컨텍스트 어텐션을 교차 배치하여 긴 컨텍스트에서의 효율성을 극대화합니다. **비전 인코더**: 학습된 2D 포지션과 다차원 RoPE를 사용하여 원본 종횡비를 유지하며 이미지를 처리합니다. 이미지 토큰 예산을 70~1120 사이로 설정할 수 있어 품질과 속도의 균형을 조절합니다. **오디오 인코더**: USM 스타일의 컨포머 아키텍처를 채택하여 E2B/E4B 모델에서 오디오 입력을 실시간으로 처리합니다. **공유 KV 캐시**: 마지막 N개 레이어가 이전 레이어의 K, V 텐서를 재사용하여 장문 컨텍스트 생성 시 메모리와 연산량을 크게 줄입니다. ### 실제 활용 시나리오 Gemma 4의 실용적 활용 범위는 매우 광범위합니다. 온디바이스 코드 어시스턴트 구현에서는 E4B 모델이 Android 기기에서 완전히 오프라인으로 동작하며, 256K 토큰 컨텍스트로 대규모 코드베이스도 처리할 수 있습니다. 멀티모달 에이전트 구축에는 31B 모델의 네이티브 함수 호출 기능과 bounding box 예측 능력이 활용됩니다. 기업 환경에서는 Apache 2.0 라이선스 덕분에 소버린 AI 솔루션 구현도 자유롭게 가능합니다. Hugging Face Transformers를 활용하면 단 몇 줄의 코드로 Gemma 4 E2B를 멀티모달 파이프라인으로 실행할 수 있으며, vLLM, llama.cpp, MLX, LM Studio 등 주요 추론 프레임워크에서 첫날부터 지원됩니다. ### 경쟁 모델과의 비교 | 항목 | Gemma 4 31B | GPT-4o | Claude 3.5 Sonnet | |------|-------------|--------|------------------| | MMLU Pro | 85.2% | ~74% | ~78% | | 컨텍스트 윈도우 | 256K | 128K | 200K | | 입력 가격 | $0/1M | $2.5/1M | $3/1M | | 라이선스 | Apache 2.0 | 독점 | 독점 | | 멀티모달 | 텍스트·이미지·비디오·오디오 | 텍스트·이미지 | 텍스트·이미지 | ### 한계 와 주의사항Gemma 4가 인상적인 성능을 보여주지만 몇 가지 제한 사항도 존재합니다. 수학 특화 벤치마크에서는 중국의 오픈 웨이트 경쟁 모델인 Qwen 3, DeepSeek V3에 비해 아직 열세라는 평가가 있습니다. 오디오 처리는 소형 E2B/E4B 모델에서만 지원되며, Extended Thinking(추론 모드)은 31B에서만 활성화됩니다. 또한 26B A4B MoE 모델은 128K 장문 컨텍스트에서 31B에 비해 성능이 크게 하락(44.1% vs 66.4%)하는 점도 주의가 필요합니다. --- ## 이번 주 주목할 AI 서비스 동향 신규 서비스 채널에는 이번 주 새로운 제보가 없었지만, 지난 한 주간 DB에 추가된 주목할 AI 서비스들을 간략히 소개합니다. **OpenAI Codex CLI**: OpenAI가 터미널에서 직접 동작하는 코딩 에이전트를 오픈소스로 공개했습니다. 자연어 명령으로 파일 생성, 코드 수정, 테스트 실행까지 가능하며, GPT-4.1 모델을 백엔드로 사용합니다. GitHub Actions와의 통합으로 CI/CD 파이프라인에서도 활용 가능합니다. **GSD (Get Shit Done)**: 할 일 관리와 AI 어시스턴트를 결합한 생산성 앱으로, 작업의 우선순위를 자동으로 조정하고 집중 시간 블록을 제안합니다. Gemini와 Claude API를 백엔드로 활용하여 자연어 태스크 파싱을 지원합니다. **Tiro**: AI 기반 글쓰기 코치 서비스로, 사용자의 글쓰기 스타일을 학습하고 맞춤형 피드백과 개선 제안을 제공합니다. 한국어 지원이 강점으로, 국내 콘텐츠 작성자들에게 특히 유용합니다. **Kuse Cowork / Claude Cowork**: 멀티 에이전트 협업 플랫폼으로, 여러 AI 에이전트가 동시에 태스크를 분담하여 처리하는 새로운 패러다임을 제시합니다. Claude API를 활용한 에이전트 오케스트레이션이 핵심 기술입니다. --- ## 트렌드 분석: 오픈 웨이트 모델의 역습 이번 Gemma 4 출시는 단순한 모델 업데이트를 넘어 AI 생태계의 구조적 변화를 시사합니다. Apache 2.0 라이선스 채택은 기업들이 독점 모델 API에 의존하지 않고 자체 인프라에서 최고 수준의 AI를 운영할 수 있게 합니다. 특히 온디바이스 실행 가능성은 프라이버시가 중요한 헬스케어, 금융, 법률 분야에서 AI 도입을 가속화할 것입니다. 오픈 웨이트 모델의 성능이 독점 API 모델에 근접하거나 일부 분야에서 앞서는 시대가 열리고 있습니다. Gemma 4 31B의 MMLU Pro 85.2%는 GPT-4o의 약 74%를 크게 상회하며, 비용은 $0/1M 토큰으로 무료입니다. 이 추세가 계속된다면, AI 인프라 비용의 민주화가 빠르게 진행될 것으로 전망됩니다. Google이 이번에 선택한 전략, 즉 오픈 웨이트 공개와 Apache 2.0 라이선스는 개발자 생태계 장악을 위한 중장기 포석으로 읽힙니다. Hugging Face, LM Studio, Ollama 등 모든 주요 플랫폼에서 첫날부터 지원되도록 한 것도 같은 맥락입니다. Gemma 4가 얼마나 빠르게 실제 프로덕션 환경에 도입되는지, 그리고 중국 경쟁사들이 어떻게 반응하는지가 향후 오픈 소스 AI 경쟁의 핵심 관전 포인트가 될 것입니다. --- ```references https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ https://ai.google.dev/gemma/docs/core/model_card_4 https://huggingface.co/blog/gemma4 https://artificialanalysis.ai/models/gemma-4-31b https://www.theregister.com/2026/04/02/googles_gemma_4_open_weights/ https://developers.googleblog.com/bring-state-of-the-art-agentic-skills-to-the-edge-with-gemma-4/ ```

Amazon

OpenAI: GPT-4o-mini

OpenAI

OpenAI: GPT-4o

OpenAI