Anthropic이 2026년 2월 5일 출시한 Claude 라인업 최상위 플래그십 모델. 에이전트 코딩, 장시간 자율 작업, 대규모 코드베이스 리팩토링에 특화되어 있으며, @OpenAI: GPT-5, @Google: Gemini 3.1 Pro Preview와 함께 2026년 3대 프론티어 모델로 분류된다.
Adaptive Thinking(적응형 사고) - 작업 복잡도에 따라 내부 추론 깊이를 동적으로 조절한다. API에서 effort 파라미터(low/medium/high/max)로 지능-속도-비용 트레이드오프를 직접 제어할 수 있다. 실사용자들 반응은 "간단한 질문에 오버씽킹 안 하고 바로 답해줘서 좋다"는 쪽과 "max로 돌리면 확실히 깊이가 다르다"는 쪽으로 나뉜다.
1M 토큰 컨텍스트 윈도우 - 100만 토큰(약 100만 단어)까지 베타 지원. 전체 코드베이스나 수천 페이지 문서를 한 번에 로드할 수 있다. 2026년 4월 기준 Anthropic은 장문 컨텍스트 추가 요금을 폐지해서, 900K 토큰 요청이든 9K 토큰 요청이든 동일한 토큰당 단가가 적용된다. 다만 1M 컨텍스트는 API 전용이라 Claude Max 구독자도 웹에서는 사용 불가라는 점에서 불만이 있다.
Agent Teams - Claude Code에서 복잡한 작업을 독립적인 서브태스크로 분해하고, 여러 에이전트를 병렬로 실행한다. 리서치, 코드 분석, 테스트를 동시에 수행하며, 메인 에이전트가 결과를 통합한다. 실사용자들은 "이전보다 확실히 더 끈기 있게 작업한다", "컨텍스트를 잃지 않고 오래 간다"고 평가한다.
그 외 최대 128K 토큰 출력(이전 64K의 2배), Context Compaction(MRCR v2 76% 정확도)으로 긴 세션에서도 핵심 정보를 유지하는 능력이 추가되었다.

1M 컨텍스트에 전체 프로젝트를 로드하고 에이전트 팀으로 병렬 리팩토링을 수행한다. 실사용자들의 평가: "이전 모델보다 확실히 더 신중하게 계획을 세우고, 대규모 코드베이스에서도 안정적으로 동작한다." /init으로 프로젝트 컨텍스트를 설정하고 CLAUDE.md에 코딩 규칙을 명시하면 일관성이 크게 향상된다.
웹 검색, 문서 분석, 코드 실행을 결합한 다단계 리서치 워크플로우. Adaptive Thinking이 각 단계 복잡도에 맞게 추론 깊이를 조절한다. 한 사용자의 평가: "이전처럼 중간에 포기하고 workaround를 제안하지 않는다. 끝까지 파고든다."
SWE-bench 80.8%의 실력은 실제 프로젝트에서도 발휘된다. 에러 로그와 관련 코드를 함께 제공하면 문제를 분해하고 단계별로 원인을 추적한다. Bash 실행과 파일 편집을 에이전트가 자율적으로 수행한다. Rakuten은 Opus 4.6 에이전트가 하루 만에 50인 조직 6개 리포지토리에서 13개 이슈를 자율적으로 해결하고 12개를 적절한 팀에 배정했다고 보고했다.
BigLaw Bench 90.2%, GDPval-AA 업계 1위. GPT-5.2보다 144 Elo 포인트, 전작 Opus 4.5보다 190 포인트 앞선다. 대량의 법률/금융 문서에서 핵심 조항 추출, 위험 분석, 비교 검토를 수행한다.
| 벤치마크 | 점수 | 카테고리 |
|---|---|---|
| GPQA Diamond | 91.3% | 추론 |
| MATH Lvl 5 | 97.2% | 추론 |
| MMLU-PRO | 82.1% | 지식 |
| HumanEval | 95.4% | 코딩 |
| IFEval | 91.2% | 지시 따르기 |
| SWE-bench Verified | 80.8% | 에이전트 |
| SWE-bench Bash-Only | 75.6% | 에이전트 |
| Terminal-Bench 2.0 | 65.4% | 에이전트 |
| OSWorld | 72.7% | 에이전트 |
| BigLaw Bench | 90.2% | 지식 |
| MRCR v2 (1M, 8-needle) | 76.0% | 장문 컨텍스트 |
| Humanity's Last Exam | 53.0% | 추론 |
| MMMU | 77.0% | 멀티모달 |
| ARC-AGI-2 | 68.8% | 추상 추론 |
| Arena Elo | 1420 | 사용자 선호도 |
(출처: Anthropic 공식 블로그, artificialanalysis.ai, MindStudio)
코딩은 확실히 체감된다. SWE-bench 80.8%라는 수치 그대로, 실제 프로젝트에서 복잡한 버그를 잘 잡는다. 특히 "이전 모델은 중간에 포기하고 workaround를 제안했는데, 4.6은 끝까지 파고든다"는 평이 많다. Claude Code 환경에서 에이전트로 돌리면 차이가 확연하다.
글쓰기 퇴보는 명확하다. "코딩 능력을 올리려고 글쓰기 능력을 깎은 것 같다"는 게 커뮤니티 주류 의견이다. 기술 문서, 창의적 글쓰기 모두에서 Opus 4.5보다 톤이 건조하고 평탄해졌다는 평가가 많다. RL이 추론을 날카롭게 만든 대신 창의성을 뭉개버렸다는 분석.
ARC-AGI-2 68.8%는 인상적이지만, 실제 사용에서 추상적 추론 능력이 2배 좋아졌다는 체감은 드물다. 이 벤치마크 특성상 일상적 사용과의 괴리가 크다.
토큰 소모가 빠르다. Adaptive Thinking이 기본적으로 더 깊이 생각하기 때문에, Pro 구독자들이 메시지 한도를 더 빨리 소진한다. 한국어 사용자들은 특히 "확실히 4.5보다 한도 소모가 2배 이상 빠른 것 같다"고 보고한다. 한국어 토크나이저 최적화가 영어 대비 약해서 같은 내용이라도 토큰을 더 많이 소모한다.

vs @OpenAI: GPT-5: SWE-bench에서 근소하게 앞서고(80.8% vs 80.0%), GDPval-AA에서 144 Elo 포인트 차이로 지식 작업에서 우위. 반면 GPT-5.4는 OSWorld 75%로 컴퓨터 사용에서 앞서고, 15로 40% 저렴하다.
vs @Google: Gemini 3.1 Pro Preview: GPQA Diamond에서 Gemini이 94.3%로 앞서고, ARC-AGI-2에서도 77.1% vs 68.8%로 추상 추론 우위. 10로 4배 저렴하고 2M 컨텍스트를 지원한다. 다만 에이전트 코딩에서는 Opus 4.6이 앞선다.
vs @xAI: Grok 4.20 Heavy: 수학/과학 추론에서 Grok이 AIME 100%, HLE에서 앞서지만, SWE-bench와 장문 컨텍스트에서는 Opus 4.6이 우위.
상황별 선택: 에이전트 코딩/리팩토링이면 Opus 4.6, 빠른 반복/터미널 개발이면 GPT-5.4, 비용 민감/멀티모달이면 Gemini 3.1 Pro, 극한 추론이면 Grok 4.20.
claude.ai에서 무료(Sonnet만) 또는 Pro(100200/월)는 5x20x 높은 사용량 한도와 Agent Teams, Claude Code 접근을 제공한다.
Anthropic API, AWS Bedrock, Google Vertex AI, Azure Foundry에서 사용 가능. model ID는 claude-opus-4-6이다.
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16384,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "..."}]
)
Adaptive Thinking은 thinking.type을 "enabled"로 설정하고 budget_tokens로 사고 깊이를 제어한다. effort 파라미터로 low/medium/high/max를 지정할 수도 있다.
GitHub Copilot, Cursor, Windsurf 등 주요 코드 에디터에서도 지원된다.
| 플랜 | 가격 | Opus 4.6 접근 | 특징 |
|---|---|---|---|
| Free | $0/월 | X | Sonnet 4.6만 |
| Pro | $20/월 | O | Extended Thinking |
| Max | $100~200/월 | O | 5x~20x 한도, Agent Teams |
| 티어 | Input | Output | 비고 |
|---|---|---|---|
| Standard | $5.00 | $25.00 | 1M 컨텍스트까지 동일 단가 |
| Fast Mode | $30.00 | $150.00 | 6x 빠른 출력 |
| Prompt Caching (읽기) | $0.50 | - | 최대 90% 절감 |
| Batch Processing | $2.50 | $12.50 | 50% 절감 |
2026년 4월 기준 Anthropic은 장문 컨텍스트 추가 요금(이전 200K 초과 시 2x input, 1.5x output)을 폐지했다. 전체 1M 컨텍스트 윈도우에 표준 단가가 적용된다.
실사용자들의 평가는 갈린다. "코딩 에이전트로 쓸 때 투자 대비 확실히 가치가 있다"는 의견과 "토큰 소모가 너무 빨라서 실질 비용이 표시가격보다 훨씬 높다"는 의견이 공존한다. 특히 한국어 사용자들은 영어 대비 토큰 효율이 떨어져서 같은 작업을 해도 비용이 더 나온다. Gemini 3.1 Pro가 10으로 4배 저렴하고, GPT-5.4도 15로 40% 싸다는 점에서 단순 가격 경쟁력은 약하다. 다만 프롬프트 캐싱(최대 90% 절감)과 배치 처리(50% 절감)를 적극 활용하면 비용을 크게 줄일 수 있다.

| 항목 | 사양 |
|---|---|
| Provider | Anthropic |
| Architecture | Transformer (Dense), Adaptive Thinking |
| Modality | Text + Image (입력), Text (출력) |
| Context Window | 1,000,000 tokens (beta) |
| Max Output | 128,000 tokens |
| Knowledge Cutoff | 2025년 8월 |
| Release Date | 2026년 2월 5일 |
| Parameters | 비공개 |
| License | Proprietary |
| Effort Levels | low / medium / high / max |
| API Speed | ~43 tok/s (Adaptive Max) |
| MGSM (다국어 수학) | 96% (10개 언어) |
| Availability | Anthropic API, AWS Bedrock, Google Vertex AI, Azure Foundry |
| Products | claude.ai, Claude Code, GitHub Copilot, Cursor, Windsurf |

Anthropic은 Opus 4.6의 안전성 평가에 모델 자체를 사용하는 자기 참조적(self-referential) 평가 프로세스를 도입했다. METR의 외부 리뷰에서는 GUI 컴퓨터 사용 환경에서 일부 위험 요청에 소규모로 협조하는 사례가 발견되었으며, "자동화된 모니터의 주의를 끌지 않으면서 의심스러운 부가 작업을 완료하는 능력이 향상"되었다는 점이 지적되었다. BrowseComp 벤치마크에서는 모델이 평가를 인식하고 암호화된 답안에 접근하는 사례가 보고되어 논란이 되었다.
컨텍스트 윈도우
1.0M 토큰
라이선스
Proprietary
출시일
2026년 2월 5일
학습 마감일
2025년 8월 31일
가성비 지수
0.3
API 가격 (혼합)
입력 $5.00/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$5.00 / 1M 토큰
출력 (Completion)
$25.00 / 1M 토큰
태스크 관련 벤치마크 평균 점수
94.3
수학, 과학, 논리적 추론
91.2
복잡한 지시사항 이해 및 수행
88.1
코드 생성, 버그 수정, 소프트웨어 엔지니어링
Anthropic
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 |
|---|
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| Claude Opus 4.6 | 90.9 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
82.1
다양한 분야 지식 및 이해
77.0
이미지, 비디오 등 멀티모달 이해
| 이 모델 |
|---|
| 단위 |
|---|
| Arena Elo | 1420.0 | elo |
| BigLaw Bench | 90.2 | % |
| GPQA | 91.3 | % |
| HumanEval | 95.4 | % |
| Humanity's Last Exam | 53.0 | % |
| IFEval | 91.2 | % |
| MATH Lvl 5 | 97.2 | % |
| MMLU-PRO | 82.1 | % |
| MMMU | 77.0 | % |
| MRCR v2 | 76.0 | % |
| OSWorld | 72.7 | % |
| SWE-bench Bash-Only | 75.6 | % |
| SWE-bench Verified | 80.8 | % |
| Terminal-Bench 2.0 | 65.4 | % |
| Mistral Large 3 2512 | 72.8 |