이번 주 AI 모델 위클리 — 2026-04-03
이번 주 하이라이트
2026년 4월 첫째 주, AI 업계에서 가장 주목할 만한 사건은 단연 Google DeepMind의 Gemma 4 공개였습니다. 오픈 웨이트 모델의 역사에서 새로운 이정표를 세운 Gemma 4는 멀티모달 처리 능력과 온디바이스 실행 가능성을 동시에 갖춘 혁신적인 모델 패밀리입니다. 이번 위클리에서는 Gemma 4의 모든 것을 심층 분석하고, 이번 주 AI 서비스 씬의 주요 트렌드도 함께 살펴봅니다.
신규 등록 모델: Google Gemma 4
출시 배경과 의미
2026년 4월 2일, Google DeepMind는 Gemma 4를 공식 발표했습니다. Gemma 시리즈의 네 번째 세대인 이 모델은 Google의 최신 플래그십 모델인 Gemini 3와 동일한 연구 토대 위에 구축되었습니다. 이전 Gemma 버전들이 주로 텍스트 처리에 집중했다면, Gemma 4는 텍스트·이미지·비디오·오디오를 모두 입력으로 받는 완전한 멀티모달 모델 패밀리로 진화했습니다.
특히 이번 출시에서 주목할 점은 라이선스 정책의 변화입니다. Google은 Gemma 4를 Apache 2.0 라이선스로 배포하기로 결정했습니다. 이는 이전 Gemma 버전들의 커스텀 라이선스보다 훨씬 자유롭고 상업적 활용에 제약이 없습니다. 기업들은 별도의 사용자 수 제한 없이, 수용 가능한 사용 정책 강제 없이 Gemma 4를 자신들의 제품에 통합할 수 있습니다.
모델 라인업: 4가지 크기
Gemma 4는 용도와 환경에 따라 선택할 수 있는 4가지 크기로 제공됩니다.
| 모델 | 유효 파라미터 | 전체 파라미터 | 컨텍스트 | 특징 |
|---|---|---|---|---|
| E2B | 2.3B | 5.1B | 128K | 최고 속도, 저전력, 오디오 지원 |
| E4B | 4.5B | 8B | 128K | 복잡한 온디바이스 태스크, 오디오 지원 |
| 26B A4B | 4B 활성 | 26B 전체 | 256K | MoE 아키텍처, 효율적 추론 |
| 31B Dense | 31B | 31B | 256K | 최고 성능, 추론 모드 지원 |
E2B와 E4B 앞의 E는 Effective(유효)의 약자로, 이 모델들은 Per-Layer Embeddings라는 혁신적인 기법을 사용합니다. 각 디코더 레이어에 보조 임베딩 신호를 주입하여, 실제 파라미터 수보다 훨씬 적은 계산 자원으로 높은 성능을 달성합니다. E2B는 이전 Gemma 버전 대비 3배 빠른 추론 속도와 60% 낮은 배터리 소비를 자랑합니다.
핵심 벤치마크 성능
Gemma 4 31B Instruction Tuned 기준의 주요 벤치마크 결과는 동급 오픈 소스 모델 중 최상위권을 기록합니다.
| 벤치마크 | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% |
| MMMU Pro Vision | 76.9% | 73.8% | 52.6% | 44.2% |
| Long Context 128K | 66.4% | 44.1% | 25.4% | 19.1% |
특히 GPQA Diamond 84.3%는 박사급 전문 지식이 필요한 문제에서 인간 전문가 수준에 근접하는 성능을 보여주며, LiveCodeBench 80.0%는 실제 코딩 과제에서 매우 높은 실력을 입증합니다. 추정 Chatbot Arena 점수도 31B 기준 약 1452점으로, 오픈 웨이트 모델 중 최상위에 위치합니다.
혁신적인 멀티모달 아키텍처
Gemma 4의 기술적 혁신은 아키텍처에서도 두드러집니다.
교차 어텐션 레이어: 로컬 슬라이딩 윈도우 어텐션과 글로벌 풀컨텍스트 어텐션을 교차 배치하여 긴 컨텍스트에서의 효율성을 극대화합니다.
비전 인코더: 학습된 2D 포지션과 다차원 RoPE를 사용하여 원본 종횡비를 유지하며 이미지를 처리합니다. 이미지 토큰 예산을 70~1120 사이로 설정할 수 있어 품질과 속도의 균형을 조절합니다.
오디오 인코더: USM 스타일의 컨포머 아키텍처를 채택하여 E2B/E4B 모델에서 오디오 입력을 실시간으로 처리합니다.
공유 KV 캐시: 마지막 N개 레이어가 이전 레이어의 K, V 텐서를 재사용하여 장문 컨텍스트 생성 시 메모리와 연산량을 크게 줄입니다.
실제 활용 시나리오
Gemma 4의 실용적 활용 범위는 매우 광범위합니다. 온디바이스 코드 어시스턴트 구현에서는 E4B 모델이 Android 기기에서 완전히 오프라인으로 동작하며, 256K 토큰 컨텍스트로 대규모 코드베이스도 처리할 수 있습니다. 멀티모달 에이전트 구축에는 31B 모델의 네이티브 함수 호출 기능과 bounding box 예측 능력이 활용됩니다. 기업 환경에서는 Apache 2.0 라이선스 덕분에 소버린 AI 솔루션 구현도 자유롭게 가능합니다.
Hugging Face Transformers를 활용하면 단 몇 줄의 코드로 Gemma 4 E2B를 멀티모달 파이프라인으로 실행할 수 있으며, vLLM, llama.cpp, MLX, LM Studio 등 주요 추론 프레임워크에서 첫날부터 지원됩니다.
경쟁 모델과의 비교
| 항목 | Gemma 4 31B | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMLU Pro | 85.2% | ~74% | ~78% |
| 컨텍스트 윈도우 | 256K | 128K | 200K |
| 입력 가격 | $0/1M | $2.5/1M | $3/1M |
| 라이선스 | Apache 2.0 | 독점 | 독점 |
| 멀티모달 | 텍스트·이미지·비디오·오디오 | 텍스트·이미지 | 텍스트·이미지 |
한계
와 주의사항Gemma 4가 인상적인 성능을 보여주지만 몇 가지 제한 사항도 존재합니다. 수학 특화 벤치마크에서는 중국의 오픈 웨이트 경쟁 모델인 Qwen 3, DeepSeek V3에 비해 아직 열세라는 평가가 있습니다. 오디오 처리는 소형 E2B/E4B 모델에서만 지원되며, Extended Thinking(추론 모드)은 31B에서만 활성화됩니다. 또한 26B A4B MoE 모델은 128K 장문 컨텍스트에서 31B에 비해 성능이 크게 하락(44.1% vs 66.4%)하는 점도 주의가 필요합니다.
이번 주 주목할 AI 서비스 동향
신규 서비스 채널에는 이번 주 새로운 제보가 없었지만, 지난 한 주간 DB에 추가된 주목할 AI 서비스들을 간략히 소개합니다.
OpenAI Codex CLI: OpenAI가 터미널에서 직접 동작하는 코딩 에이전트를 오픈소스로 공개했습니다. 자연어 명령으로 파일 생성, 코드 수정, 테스트 실행까지 가능하며, GPT-4.1 모델을 백엔드로 사용합니다. GitHub Actions와의 통합으로 CI/CD 파이프라인에서도 활용 가능합니다.
GSD (Get Shit Done): 할 일 관리와 AI 어시스턴트를 결합한 생산성 앱으로, 작업의 우선순위를 자동으로 조정하고 집중 시간 블록을 제안합니다. Gemini와 Claude API를 백엔드로 활용하여 자연어 태스크 파싱을 지원합니다.
Tiro: AI 기반 글쓰기 코치 서비스로, 사용자의 글쓰기 스타일을 학습하고 맞춤형 피드백과 개선 제안을 제공합니다. 한국어 지원이 강점으로, 국내 콘텐츠 작성자들에게 특히 유용합니다.
Kuse Cowork / Claude Cowork: 멀티 에이전트 협업 플랫폼으로, 여러 AI 에이전트가 동시에 태스크를 분담하여 처리하는 새로운 패러다임을 제시합니다. Claude API를 활용한 에이전트 오케스트레이션이 핵심 기술입니다.
트렌드 분석: 오픈 웨이트 모델의 역습
이번 Gemma 4 출시는 단순한 모델 업데이트를 넘어 AI 생태계의 구조적 변화를 시사합니다. Apache 2.0 라이선스 채택은 기업들이 독점 모델 API에 의존하지 않고 자체 인프라에서 최고 수준의 AI를 운영할 수 있게 합니다. 특히 온디바이스 실행 가능성은 프라이버시가 중요한 헬스케어, 금융, 법률 분야에서 AI 도입을 가속화할 것입니다.
오픈 웨이트 모델의 성능이 독점 API 모델에 근접하거나 일부 분야에서 앞서는 시대가 열리고 있습니다. Gemma 4 31B의 MMLU Pro 85.2%는 GPT-4o의 약 74%를 크게 상회하며, 비용은 $0/1M 토큰으로 무료입니다. 이 추세가 계속된다면, AI 인프라 비용의 민주화가 빠르게 진행될 것으로 전망됩니다.
Google이 이번에 선택한 전략, 즉 오픈 웨이트 공개와 Apache 2.0 라이선스는 개발자 생태계 장악을 위한 중장기 포석으로 읽힙니다. Hugging Face, LM Studio, Ollama 등 모든 주요 플랫폼에서 첫날부터 지원되도록 한 것도 같은 맥락입니다. Gemma 4가 얼마나 빠르게 실제 프로덕션 환경에 도입되는지, 그리고 중국 경쟁사들이 어떻게 반응하는지가 향후 오픈 소스 AI 경쟁의 핵심 관전 포인트가 될 것입니다.





