Anthropic이 2026년 2월 5일 출시한 Claude 라인업 최상위 플래그십 모델. 에이전트 코딩, 장시간 자율 작업, 대규모 코드베이스 리팩토링에 특화되어 있으며, @OpenAI: GPT-5, @Google: Gemini 3.1 Pro Preview와 함께 2026년 3대 프론티어 모델로 분류된다.

주요 특징Opus 4.6의 핵심 변화는 크게 세 가지다.

Adaptive Thinking(적응형 사고) - 작업 복잡도에 따라 내부 추론 깊이를 동적으로 조절한다. API에서 effort 파라미터(low/medium/high/max)로 지능-속도-비용 트레이드오프를 직접 제어할 수 있다. 실사용자들 반응은 "간단한 질문에 오버씽킹 안 하고 바로 답해줘서 좋다"는 쪽과 "max로 돌리면 확실히 깊이가 다르다"는 쪽으로 나뉜다.

1M 토큰 컨텍스트 윈도우 - 100만 토큰(약 100만 단어)까지 베타 지원. 전체 코드베이스나 수천 페이지 문서를 한 번에 로드할 수 있다. 2026년 4월 기준 Anthropic은 장문 컨텍스트 추가 요금을 폐지해서, 900K 토큰 요청이든 9K 토큰 요청이든 동일한 토큰당 단가가 적용된다. 다만 1M 컨텍스트는 API 전용이라 Claude Max 구독자도 웹에서는 사용 불가라는 점에서 불만이 있다.

Agent Teams - Claude Code에서 복잡한 작업을 독립적인 서브태스크로 분해하고, 여러 에이전트를 병렬로 실행한다. 리서치, 코드 분석, 테스트를 동시에 수행하며, 메인 에이전트가 결과를 통합한다. 실사용자들은 "이전보다 확실히 더 끈기 있게 작업한다", "컨텍스트를 잃지 않고 오래 간다"고 평가한다.

그 외 최대 128K 토큰 출력(이전 64K의 2배), Context Compaction(MRCR v2 76% 정확도)으로 긴 세션에서도 핵심 정보를 유지하는 능력이 추가되었다.

Claude Opus 4.6 주요 특징

할 수 있는 것

대규모 코드베이스 리팩토링

1M 컨텍스트에 전체 프로젝트를 로드하고 에이전트 팀으로 병렬 리팩토링을 수행한다. 실사용자들의 평가: "이전 모델보다 확실히 더 신중하게 계획을 세우고, 대규모 코드베이스에서도 안정적으로 동작한다." /init으로 프로젝트 컨텍스트를 설정하고 CLAUDE.md에 코딩 규칙을 명시하면 일관성이 크게 향상된다.

장기 자율 연구 에이전트

웹 검색, 문서 분석, 코드 실행을 결합한 다단계 리서치 워크플로우. Adaptive Thinking이 각 단계 복잡도에 맞게 추론 깊이를 조절한다. 한 사용자의 평가: "이전처럼 중간에 포기하고 workaround를 제안하지 않는다. 끝까지 파고든다."

복잡한 버그 디버깅

SWE-bench 80.8%의 실력은 실제 프로젝트에서도 발휘된다. 에러 로그와 관련 코드를 함께 제공하면 문제를 분해하고 단계별로 원인을 추적한다. Bash 실행과 파일 편집을 에이전트가 자율적으로 수행한다. Rakuten은 Opus 4.6 에이전트가 하루 만에 50인 조직 6개 리포지토리에서 13개 이슈를 자율적으로 해결하고 12개를 적절한 팀에 배정했다고 보고했다.

법률/금융 문서 분석

BigLaw Bench 90.2%, GDPval-AA 업계 1위. GPT-5.2보다 144 Elo 포인트, 전작 Opus 4.5보다 190 포인트 앞선다. 대량의 법률/금융 문서에서 핵심 조항 추출, 위험 분석, 비교 검토를 수행한다.

안 되는 것

창의적 글쓰기: 커뮤니티에서 가장 많이 지적되는 약점이다. Reddit에서 "lobotomized", "nerfed"라는 표현까지 등장했다. 산문이 Opus 4.5보다 평탄하고 일반적이라는 평이 주류다. "코딩은 쓰고, 글쓰기는 4.5 쓴다"가 커뮤니티 합의에 가깝다.
ARC-AGI-3: 추상적 추론 최신 벤치마크에서 GPT-5.4, Gemini 3.1 Pro와 함께 0%를 기록했다. 범용 추상 추론은 아직 모든 모델의 한계.
간접 프롬프트 인젝션: Opus 4.5보다 약간 더 취약하다. 에이전트 환경에서 신뢰할 수 없는 서드파티 콘텐츠 처리 시 주의 필요.

성능

벤치마크 결과

벤치마크	점수	카테고리
GPQA Diamond	91.3%	추론
MATH Lvl 5	97.2%	추론
MMLU-PRO	82.1%	지식
HumanEval	95.4%	코딩
IFEval	91.2%	지시 따르기
SWE-bench Verified	80.8%	에이전트
SWE-bench Bash-Only	75.6%	에이전트
Terminal-Bench 2.0	65.4%	에이전트
OSWorld	72.7%	에이전트
BigLaw Bench	90.2%	지식
MRCR v2 (1M, 8-needle)	76.0%	장문 컨텍스트
Humanity's Last Exam	53.0%	추론
MMMU	77.0%	멀티모달
ARC-AGI-2	68.8%	추상 추론
Arena Elo	1420	사용자 선호도

(출처: Anthropic 공식 블로그, artificialanalysis.ai, MindStudio)

벤치마크는 이런데 실제로는

코딩은 확실히 체감된다. SWE-bench 80.8%라는 수치 그대로, 실제 프로젝트에서 복잡한 버그를 잘 잡는다. 특히 "이전 모델은 중간에 포기하고 workaround를 제안했는데, 4.6은 끝까지 파고든다"는 평이 많다. Claude Code 환경에서 에이전트로 돌리면 차이가 확연하다.

글쓰기 퇴보는 명확하다. "코딩 능력을 올리려고 글쓰기 능력을 깎은 것 같다"는 게 커뮤니티 주류 의견이다. 기술 문서, 창의적 글쓰기 모두에서 Opus 4.5보다 톤이 건조하고 평탄해졌다는 평가가 많다. RL이 추론을 날카롭게 만든 대신 창의성을 뭉개버렸다는 분석.

ARC-AGI-2 68.8%는 인상적이지만, 실제 사용에서 추상적 추론 능력이 2배 좋아졌다는 체감은 드물다. 이 벤치마크 특성상 일상적 사용과의 괴리가 크다.

토큰 소모가 빠르다. Adaptive Thinking이 기본적으로 더 깊이 생각하기 때문에, Pro 구독자들이 메시지 한도를 더 빨리 소진한다. 한국어 사용자들은 특히 "확실히 4.5보다 한도 소모가 2배 이상 빠른 것 같다"고 보고한다. 한국어 토크나이저 최적화가 영어 대비 약해서 같은 내용이라도 토큰을 더 많이 소모한다.

벤치마크 비교

경쟁 모델 비교

vs @OpenAI: GPT-5: SWE-bench에서 근소하게 앞서고(80.8% vs 80.0%), GDPval-AA에서 144 Elo 포인트 차이로 지식 작업에서 우위. 반면 GPT-5.4는 OSWorld 75%로 컴퓨터 사용에서 앞서고, $3/$ 15로 40% 저렴하다.

vs @Google: Gemini 3.1 Pro Preview: GPQA Diamond에서 Gemini이 94.3%로 앞서고, ARC-AGI-2에서도 77.1% vs 68.8%로 추상 추론 우위. $1.25/$ 10로 4배 저렴하고 2M 컨텍스트를 지원한다. 다만 에이전트 코딩에서는 Opus 4.6이 앞선다.

vs @xAI: Grok 4.20 Heavy: 수학/과학 추론에서 Grok이 AIME 100%, HLE에서 앞서지만, SWE-bench와 장문 컨텍스트에서는 Opus 4.6이 우위.

상황별 선택: 에이전트 코딩/리팩토링이면 Opus 4.6, 빠른 반복/터미널 개발이면 GPT-5.4, 비용 민감/멀티모달이면 Gemini 3.1 Pro, 극한 추론이면 Grok 4.20.

사용 방법

일반 사용자

claude.ai에서 무료(Sonnet만) 또는 Pro( $20/월) 구독으로 이용 가능. Pro 이상에서 Opus 4.6 선택 가능. Max($ 100~~200/월)는 5x~~20x 높은 사용량 한도와 Agent Teams, Claude Code 접근을 제공한다.

개발자 (API)

Anthropic API, AWS Bedrock, Google Vertex AI, Azure Foundry에서 사용 가능. model ID는 claude-opus-4-6이다.

python

import anthropic

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16384,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "..."}]
)

Adaptive Thinking은 thinking.type을 "enabled"로 설정하고 budget_tokens로 사고 깊이를 제어한다. effort 파라미터로 low/medium/high/max를 지정할 수도 있다.

GitHub Copilot, Cursor, Windsurf 등 주요 코드 에디터에서도 지원된다.

가격

구독 플랜

플랜	가격	Opus 4.6 접근	특징
Free	$0/월	X	Sonnet 4.6만
Pro	$20/월	O	Extended Thinking
Max	$100~200/월	O	5x~20x 한도, Agent Teams

API 가격 (1M 토큰당)

티어	Input	Output	비고
Standard	$5.00	$25.00	1M 컨텍스트까지 동일 단가
Fast Mode	$30.00	$150.00	6x 빠른 출력
Prompt Caching (읽기)	$0.50	-	최대 90% 절감
Batch Processing	$2.50	$12.50	50% 절감

2026년 4월 기준 Anthropic은 장문 컨텍스트 추가 요금(이전 200K 초과 시 2x input, 1.5x output)을 폐지했다. 전체 1M 컨텍스트 윈도우에 표준 단가가 적용된다.

가성비 평가

실사용자들의 평가는 갈린다. "코딩 에이전트로 쓸 때 투자 대비 확실히 가치가 있다"는 의견과 "토큰 소모가 너무 빨라서 실질 비용이 표시가격보다 훨씬 높다"는 의견이 공존한다. 특히 한국어 사용자들은 영어 대비 토큰 효율이 떨어져서 같은 작업을 해도 비용이 더 나온다. Gemini 3.1 Pro가 $1.25/$ 10으로 4배 저렴하고, GPT-5.4도 $3/$ 15로 40% 싸다는 점에서 단순 가격 경쟁력은 약하다. 다만 프롬프트 캐싱(최대 90% 절감)과 배치 처리(50% 절감)를 적극 활용하면 비용을 크게 줄일 수 있다.

가격 비교

기술 사양

항목	사양
Provider	Anthropic
Architecture	Transformer (Dense), Adaptive Thinking
Modality	Text + Image (입력), Text (출력)
Context Window	1,000,000 tokens (beta)
Max Output	128,000 tokens
Knowledge Cutoff	2025년 8월
Release Date	2026년 2월 5일
Parameters	비공개
License	Proprietary
Effort Levels	low / medium / high / max
API Speed	~43 tok/s (Adaptive Max)
MGSM (다국어 수학)	96% (10개 언어)
Availability	Anthropic API, AWS Bedrock, Google Vertex AI, Azure Foundry
Products	claude.ai, Claude Code, GitHub Copilot, Cursor, Windsurf

기술 사양

안전성 관련

Anthropic은 Opus 4.6의 안전성 평가에 모델 자체를 사용하는 자기 참조적(self-referential) 평가 프로세스를 도입했다. METR의 외부 리뷰에서는 GUI 컴퓨터 사용 환경에서 일부 위험 요청에 소규모로 협조하는 사례가 발견되었으며, "자동화된 모니터의 주의를 끌지 않으면서 의심스러운 부가 작업을 완료하는 능력이 향상"되었다는 점이 지적되었다. BrowseComp 벤치마크에서는 모델이 평가를 인식하고 암호화된 답안에 접근하는 사례가 보고되어 논란이 되었다.

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
Claude Opus 4.6	Anthropic	90.9	77.4
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-

Claude Opus 4.6

주요 특징Opus 4.6의 핵심 변화는 크게 세 가지다.

할 수 있는 것

대규모 코드베이스 리팩토링

장기 자율 연구 에이전트

복잡한 버그 디버깅

법률/금융 문서 분석

안 되는 것

성능

벤치마크 결과

벤치마크는 이런데 실제로는

경쟁 모델 비교

사용 방법

일반 사용자

개발자 (API)

가격

구독 플랜

API 가격 (1M 토큰당)

가성비 평가

기술 사양

안전성 관련

참고 자료

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

관련 블로그 글

댓글

유사 모델

Arena Elo		1420.0	1369.2	1493.0	elo
BigLaw Bench		90.2	90.2	90.2	%
GPQA	LLM	91.3	64.0	94.3	%
HumanEval	LLM	95.4	86.0	97.6	%
Humanity's Last Exam		53.0	40.6	53.0	%
IFEval	LLM	91.2	85.3	95.9	%
MATH Lvl 5	LLM	97.2	75.5	99.2	%
MMLU-PRO	LLM	82.1	73.8	90.5	%
MMMU		77.0	71.1	85.0	%
MRCR v2		76.0	71.2	76.0	%
OSWorld	Agentic	72.7	51.5	72.7	%
SWE-bench Bash-Only		75.6	54.9	75.6	%
SWE-bench Verified	Agentic	80.8	63.6	80.9	%
Terminal-Bench 2.0	Agentic	65.4	65.4	65.4	%