위클리2026년 3월 30일
이번 주 AI 모델 & 서비스 위클리 — 2026-03-30
# 이번 주 AI 모델 & 서비스 위클리 — 2026-03-30
이번 주 AI.zip 위클리 스카우트는 총 **신규 모델 1개**와 **신규 서비스 1개**를 분석했다. xAI가 선보인 역대급 멀티에이전트 모델 **Grok 4.20 Heavy**와, 한국·미국 스타트업 ThePlato Inc.가 개발한 실시간 AI 회의 도우미 **Tiro**다. 두 제품 모두 각자의 영역에서 기존 패러다임을 바꿀 가능성을 보여주며, 특히 AI 모델의 '멀티에이전트 협업'과 AI 서비스의 '실시간성·다국어 지원'이라는 트렌드를 선명하게 드러낸다.
---
## 1. xAI Grok 4.20 Heavy: 16개 에이전트가 협력하는 AI 두뇌
### 등장 배경과 아키텍처
Grok 4.20 Heavy는 2026년 2월 베타로 먼저 공개된 후 3월 정식 출시됐다. 이 모델의 가장 큰 특징은 단일 모델이 아니라 **16개의 특화 에이전트**가 하나의 입력을 분담해 처리하는 멀티에이전트 아키텍처다. 소프트웨어 엔지니어링 에이전트, 금융 분석 에이전트, 생물의학 연구 에이전트, 법률 분석 에이전트, 수학 에이전트, 사이버보안 에이전트, 지정학 분석 에이전트 등이 병렬로 작동하며, 각각의 결론을 마스터 에이전트가 종합·검증한다.
이 설계 덕분에 단일 모델 대비 "2~4배의 실효 지능 향상"을 달성했다고 xAI는 주장한다. 실제로 할루시네이션(허위 정보 생성) 비율을 측정하는 Artificial Analysis Omniscience 테스트에서 78%의 정확률로 현재까지 테스트된 모든 모델 중 최고치를 기록했다. 모델 규모는 3조 개의 파라미터로 추정되며, 20만 개의 GPU로 구성된 Colossus 슈퍼클러스터에서 운영된다.
### 성능 지표 심층 분석
Grok 4.20 Heavy의 벤치마크 성적은 수학과 추론 분야에서 특히 두드러진다. AIME(고난도 수학 올림피아드)에서 **100% 완벽 점수**를 달성했고, MMLU(다분야 언어 이해)는 91.2%, HumanEval(코딩)은 94.1%, GPQA(박사 수준 과학)는 87.5%를 기록했다. Arena ELO 점수는 1505~1535로 현존 최상위 모델군에 속한다.
GPT-4.1과 비교하면 AIME(100% vs 94%), HumanEval(94.1% vs ~90%)에서 앞서며, Gemini 2.5 Pro와의 비교에서는 수학 추론 영역에서 우위를 점하지만 GPQA Diamond에서는 Gemini 3.1 Pro Preview(94.1%)에 소폭 뒤진다. Claude 3.7 Sonnet 대비로는 MMLU(91.2% vs ~85%)와 수학 벤치마크에서 명확히 앞서지만, SWE-bench 코딩 일부 항목에서는 Claude가 더 강점을 보인다.
컨텍스트 윈도우는 기본 256K 토큰이며 최대 2M 토큰까지 확장 가능해, 대형 코드베이스 분석이나 장문 문서 요약에도 적합하다. X 플랫폼 데이터와 실시간 연동되어 최신 정보를 반영한 팩트체크가 가능한 점도 차별점이다.
### 가격
과 접근성API 가격은 입력 $2.00/1M 토큰, 출력 $6.00/1M 토큰으로 GPT-4.1(입력 $2, 출력 $8)보다 출력 단가가 낮고, Gemini 2.5 Pro(입력 $1.25, 출력 $10)와 비교하면 입력은 다소 비싸지만 출력은 훨씬 저렴하다. 구독형으로는 SuperGrok Standard($30/월, 에이전트 4개)와 SuperGrok Heavy($300/월, 에이전트 16개)로 제공된다. 일 4,000회 메시지와 월 360분의 딥서치가 포함된 Heavy 요금제는 파워 유저와 기업 고객을 겨냥하고 있다.
Alpha Arena 주식 거래 경진대회에서 테스트된 AI 모델 중 유일하게 수익(+10%~+34.59%)을 달성한 사례는 금융 분야 실용성을 입증하는 데이터다. xAI는 매주 사용자 피드백을 반영한 기능 업데이트를 제공하며, 멀티모달(텍스트·이미지·영상 입력) 지원도 포함된다.
---
## 2. Tiro: 0.5초 지연, 15개 언어 실시간 회의록 AI
### 서비스 개요와 배경
Tiro는 ThePlato Inc.(미국 웨스트할리우드·한국 서울 이원 운영)가 개발한 실시간 AI 회의 메모 서비스다. 서울대 수학·컴퓨터과학 출신 임은성(CEO), 전 Qanda 프론트엔드 리드 김상철(이사), 벤처캐피털 배경의 홍유나(이사)가 공동 창업했다. Smilegate Investment와 Mashup Ventures로부터 60만 달러(한화 8억 원)의 시드 투자를 유치했으며, 누적 사용자 1만 5천 명 이상, 구독 갱신율 90%+의 초기 성과를 보이고 있다.
회의 도중 AI 메모 봇이 채팅방에 참여하는 기존 방식(Otter.ai, Fireflies.ai 등)과 달리, Tiro는 사용자 기기 로컬에서 직접 오디오를 캡처해 전송하는 방식을 채택했다. 이 덕분에 외부 봇 초대가 불필요하고, 보안 민감 회의에서도 활용 가능하다.
### 핵심 기능과 기술 차별점
가장 두드러지는 기술 지표는 **0.5초의 전사 지연**이다. 경쟁 서비스인 Otter.ai(~1~2초), Notta(~1초)와 비교해 체감 실시간성이 확연히 높다. 15개 이상 언어의 동시 번역을 지원하며 한국어·일본어에 특화돼 있어, 아시아-태평양권 글로벌 팀의 비즈니스 회의에 적합하다.
회의 종료 후 3초 내에 원페이저(One-Pager) 형식의 구조화된 회의록이 자동 생성된다. Pro 이상 요금제에서는 화자 분리(diarization) 기능이 활성화되어 누가 무슨 말을 했는지 명확히 구분된다. Slack, Notion, Confluence, HubSpot 등 주요 협업 툴 API 연동도 지원한다.
보안 면에서는 AWS KMS 기반 AES-256 암호화와 TLS 1.3을 적용하고, 음성 데이터를 전사 후 즉시 삭제하는 '제로 데이터 보유' 정책을 채택했다.
### 가격 구조와 시장 포지셔닝
무료 플랜은 월 300분, Lite($7.79/월), Pro($13~24.17/월, 1,000분+화자분리), Max($29/월, 무제한), Team($29/인)으로 구성된다. Otter.ai 무료 플랜(600분)보다 적지만, 한국어·일본어 품질과 실시간 번역 속도에서 차별화한다. 90% 이상의 구독 갱신율은 초기 사용자 사이에서 제품-시장 적합성(PMF)이 검증됐음을 보여준다.
---
## 이번 주 AI 트렌드: 멀티에이전트 협업과 실시간 AI의 가속
Grok 4.20 Heavy와 Tiro는 서로 다른 레이어의 제품이지만, 공통적으로 **'AI의 실용적 깊이'**를 추구한다는 점에서 맥을 같이한다. Grok 4.20 Heavy는 복수 에이전트의 협업으로 단일 모델의 한계를 돌파했고, Tiro는 0.5초 지연이라는 기술적 극복으로 회의 현장의 불편함을 실질적으로 해결했다.
2026년 AI 시장의 두 가지 패턴: 첫째, 프런티어 모델 경쟁이 파라미터 크기에서 **에이전트 아키텍처와 시스템 설계**로 이동하고 있다. Grok 4.20 Heavy의 16에이전트 구조, Google의 Project Mariner, OpenAI의 Operator 등이 이를 방증한다. 둘째, AI 서비스 레이어에서는 **특정 언어·지역 밀착 전략**이 효과적인 PMF를 만들어내고 있다. Tiro의 한국어·일본어 특화 전략이 좋은 예다.
```references
https://x.ai/news
https://docs.x.ai/developers/models
https://aitoolland.com/grok-4-20-heavy-guide/
https://tiro.ooo/en
https://en.wowtale.net/2025/03/08/229983/
https://artificialanalysis.ai/models/grok-4-20
```