AI.zip
  • AI 모델
  • 방법론
  • AI 서비스
  • 가격 비교
  • 블로그

AI.zip

AI 모델, 서비스, 방법론을 큐레이션하는 에디토리얼 플랫폼

탐색

  • AI 모델
  • AI 서비스
  • 방법론
  • 블로그

커뮤니티

  • 소개
  • 디스코드 참여
  • 문의

법적고지

  • 이용약관
  • 개인정보처리방침

© 2026 ai.zip. All rights reserved.

Discord 커뮤니티
모델Anthropic: Claude 3.7 Sonnet (thinking)

Claude 3.7 Sonnet (thinking)

AnthropicLLM자연어 처리컴퓨터 비전오디오 처리200K 토큰
2025년 2월 25일Proprietary

한줄 소개

Claude 3.7 Sonnet(Thinking)은 Anthropic이 2025년 2월에 출시한 최초의 하이브리드 추론 모델이다. 하나의 모델에서 즉각 응답과 심층 사고(extended thinking)를 전환할 수 있는 구조로, "빠르게 답할 것인가, 깊이 생각할 것인가"를 사용자가 직접 선택할 수 있다.

주요 특징

Claude 3.7 Sonnet(Thinking)의 핵심은 확장된 사고(extended thinking) 기능이다. 일반 모드에서는 기존 Claude처럼 즉각 응답하고, thinking 모드를 켜면 답변 전에 내부적으로 최대 128K 토큰까지 추론 과정을 거친다. 개발자는 thinking budget을 직접 설정해서 사고에 투입되는 토큰 양을 정밀하게 조절할 수 있다.

가장 눈에 띄는 특징은 사고 과정의 투명성이다. thinking 모드에서 모델이 어떤 과정으로 결론에 도달했는지 원시 형태 그대로 보여준다(Research Preview 단계). 이건 디버깅이나 결과 검증 측면에서 실질적인 가치가 있다.

코딩 분야에서는 SWE-bench Verified 70.3%(커스텀 scaffold 기준)을 기록하면서 이전 3.5 Sonnet의 49.0% 대비 큰 폭으로 향상되었다 (출처: 공식 블로그). 프론트엔드 개발과 풀스택 업데이트에서 특히 강점을 보인다.

실사용자 반응을 보면, Reddit의 한 개발자(Ehsan1238)는 "보통 며칠 걸리는 복잡한 코드 작업을 한 번에 끝냈다"고 평가했다. 반면 Cursor 서브레딧의 stxthrowaway123은 "무관한 코드를 발견하면 멋대로 수정하기 시작해서 오히려 엉망이 된다"고 불만을 표시하기도 했다. 지시를 충실히 따르는 면에서 3.5 Sonnet보다 후퇴했다는 의견이 커뮤니티에서 반복적으로 나온다.

Claude 3.7 Sonnet Thinking 주요 특징

할 수 있는 것

thinking 모드가 빛을 발하는 영역은 복잡한 수학/과학 추론이다. MATH Lvl 5에서 96.2점으로 수학 추론에서 거의 완벽에 가까운 성능을 보여준다 (출처: 공식 블로그). 대학원 수준 과학 문제(GPQA Diamond 84.8점)에서도 높은 정확도를 기록한다.

코딩에서는 에이전틱 워크플로에서 자율적으로 다단계 프로세스를 탐색하는 능력이 강점이다. TAU-bench에서 소매 관련 태스크 81.2%, 항공 관련 58.4%로 OpenAI o1(각각 73.5%, 54.2%)을 앞섰다 (출처: 공식 블로그). 문서 리뷰, 다단계 추론, 에이전트 기반 의사결정 흐름에서 경쟁 모델보다 우위를 점한다.

실제로 사용해본 개발자들의 체감 평가를 보면, 복잡한 UI와 백엔드 코드를 동시에 다루는 작업에서 강점이 있다. 다만 Reddit 사용자 vanderpyyy의 조언처럼 "가능한 한 적은 줄의 코드로 작성하라"를 커스텀 지시에 추가하면 과도한 복잡성 문제를 완화할 수 있다.

한국어 처리 측면에서는 이전 3.5 버전 대비 더 자연스럽고 맥락을 잘 이해하는 답변을 생성하며, 긴 문장에서도 일관성을 유지한다는 평가가 있다 (출처: wikidocs.net). 다만 한국어 전용 벤치마크 데이터는 미공개 상태다.

성능thinking 모드 기준 주요 벤치마크 성적은 다음과 같다.

벤치마크점수출처
MATH Lvl 596.2공식 블로그
HumanEval94.0pricepertoken.com
IFEval93.2공식 블로그
GPQA Diamond84.8공식 블로그
MMLU-PRO82.7vals.ai
TAU-bench (Retail)81.2공식 블로그
MMMU75.0datacamp.com
SWE-bench Verified70.3공식 블로그 (scaffold)

경쟁 모델과 비교하면, Gemini 2.5 Pro가 AIME에서 30% 이상, GPQA에서도 Claude를 앞서는 영역이 있다 (출처: analyticsvidhya.com). 특히 Gemini 2.5 Pro는 1M 토큰 컨텍스트와 더 저렴한 가격이 장점이고, DeepSeek R1은 가격 대비 성능에서 압도적이다.

"벤치마크는 높은데 실제로는 어떤가"에 대해 커뮤니티 반응을 보면, 코딩 태스크에서 일부 개발자는 여전히 3.5 Sonnet을 선호한다. 개발자 @mayfer는 "코딩에서는 3.5 Sonnet이 3.7보다 낫다"고 평가했다. thinking 모드가 복잡한 문제에서는 확실히 강하지만, 단순한 일상 코딩에서는 오버킬이 될 수 있다는 것이다. 과도한 사고로 인한 속도 저하나 불필요한 코드 변경을 유발하는 경향이 단점으로 지적된다.

Claude 3.7 Sonnet Thinking 벤치마크

사용 방법

일반 사용자는 claude.ai에서 Claude Pro(20/월),Team(20/월), Team(20/월),Team(30/사용자/월), Enterprise 플랜을 통해 thinking 모드를 사용할 수 있다. Free 플랜에서도 제한적으로 이용 가능하다.

개발자는 Anthropic API(platform.claude.com)에서 모델 ID claude-3-7-sonnet-20250219로 접근한다. thinking 모드는 API 요청 시 별도로 활성화해야 하며, thinking budget 파라미터로 사고에 할당할 최대 토큰 수를 지정한다. Amazon Bedrock과 Google Cloud Vertex AI에서도 동일하게 사용 가능하다.

다만 이 모델은 현재 retired 상태이며, Anthropic은 Claude Sonnet 4.6으로의 업그레이드를 권장하고 있다 (출처: platform.claude.com).

가격

API 가격은 입력 3.00/1M토큰,출력3.00/1M 토큰, 출력 3.00/1M토큰,출력15.00/1M 토큰이다. thinking 토큰은 출력 토큰으로 과금된다. 일반 모드와 thinking 모드의 토큰 단가는 동일하지만, thinking 모드에서는 내부 추론에 상당량의 토큰이 소비되므로 실질 비용은 크게 증가할 수 있다.

경쟁 모델과 비교하면 GPT-4o(입력 2.50,출력2.50, 출력 2.50,출력10.00)보다 20-50% 비싸고, Gemini 2.5 Pro(입력 1.25,출력1.25, 출력 1.25,출력10.00) 대비로는 2배 이상 비싸다. DeepSeek R1(입력 0.55,출력0.55, 출력 0.55,출력2.19)과의 가격 차이는 5-7배에 달한다.

구독 요금은 claude.ai 기준으로 Free(무료, 제한적), Pro(20/월),Team(20/월), Team(20/월),Team(30/사용자/월), Enterprise(별도 문의)로 구성된다.

실사용자 가성비 평가를 보면, thinking 토큰이 출력으로 과금되는 구조 때문에 복잡한 문제일수록 비용이 급증한다는 의견이 많다. RAG 챗봇처럼 응답 시간이 중요한 구현에서는 thinking 모드의 지연 시간과 토큰 소모가 현실적인 제약이 된다.

한국어 토큰 효율 데이터는 미공개 상태다. Claude 시리즈가 사용하는 토크나이저의 한국어 효율에 대한 공식 수치는 Anthropic에서 발표한 바 없다.

Claude 3.7 Sonnet Thinking 가격 비교

기술 사양

항목사양
개발사Anthropic
모델 IDclaude-3-7-sonnet-20250219
출시일2025년 2월 24일
모델 유형하이브리드 추론 LLM
파라미터 수미공개
컨텍스트 윈도우200,000 토큰
최대 출력128,000 토큰 (Thinking 모드 beta)
학습 데이터 기준일2024년 10월
라이선스Proprietary
입력 모달리티텍스트, 이미지
출력 모달리티텍스트
제공 플랫폼Anthropic API, Amazon Bedrock, Google Vertex AI

Claude 3.7 Sonnet Thinking 기술 사양

참고 자료

Claude 3.7 Sonnet and Claude Code
anthropic.com

Claude 3.7 Sonnet and Claude Code

Today, we’re announcing Claude 3.7 Sonnet, our most intelligent model to date and the first hybrid reasoning model generally available on the market.

Claude's extended thinking
anthropic.com

Claude's extended thinking

Discussing Claude's new thought process

Models overview
Claude API Docs

Models overview

Claude is a family of state-of-the-art large language models developed by Anthropic. This guide introduces the available models and compares their performance.

artificialanalysis.ai

artificialanalysis.ai

Vals AI
vals.ai

Vals AI

Private, domain-specific benchmarks in legal, tax, and finance.

datacamp.com

datacamp.com

wikidocs.net

wikidocs.net

Claude 3.7 Sonnet (thinking) - API Pricing & Providers
openrouter.ai

Claude 3.7 Sonnet (thinking) - API Pricing & Providers

Claude 3.7 Sonnet is an advanced large language model with improved reasoning, coding, and problem-solving capabilities. $3 per million input tokens, $15 per million output tokens. 200,000 token context window, maximum output of 64,000 tokens. Higher uptime with 2 providers.

스펙

컨텍스트 윈도우

200K 토큰

라이선스

Proprietary

출시일

2025년 2월 25일

학습 마감일

2024년 10월 31일

가성비 지수

0.5

API 가격 (혼합)

입력 $3.00/1M

조회수

0

API 가격 (USD 기준)

입력 (Prompt)

$3.00 / 1M 토큰

출력 (Completion)

$15.00 / 1M 토큰

용도별 성능

태스크 관련 벤치마크 평균 점수

지시따르기최강

93.2

복잡한 지시사항 이해 및 수행

수학/추론

90.5

수학, 과학, 논리적 추론

일반지식

82.7

다양한 분야 지식 및 이해

Provider

Anthropic

Anthropic의 다른 모델

Anthropic: Claude 3.5 HaikuAnthropic: Claude Opus 4Anthropic: Claude Sonnet 4Anthropic: Claude 3 HaikuAnthropic: Claude Opus 4.5

분류

자연어 처리컴퓨터 비전오디오 처리TransformerLLM

성능 평가

꼭지점 클릭 → 벤치마크 행 이동

벤치마크카테고리이 모델전체 평균전체 최고단위
GPQALLM84.864.094.3

유사 모델 비교

모델ProviderLLM 점수GPQA·MMLU·MATH·IFEval·HumanEvalAgentic 점수SWE·τ-bench·OSWorld·GAIA
Claude 3.7 Sonnet (thinking)Anthropic88.974.8
o1-proOpenAI86.4-
o3OpenAI88.847.7
Grok 4.1 FastxAI74.4-
Command ACohere69.1-

이전글

Anthropic: Claude 3.7 Sonnet

다음글

Anthropic: Claude 3 Haiku

댓글

0개

댓글을 작성하려면

로그인

해주세요

유사 모델

OpenAI: o1-pro

OpenAI

OpenAI: o3

OpenAI

xAI: Grok 4.1 Fast

xAI

Cohere: Command A

Cohere

Mistral: Mistral Large 3 2512

Mistral AI

코딩

82.2

코드 생성, 버그 수정, 소프트웨어 엔지니어링

멀티모달

75.0

이미지, 비디오 등 멀티모달 이해

%
HumanEvalLLM94.086.097.6%
IFEvalLLM93.285.395.9%
MATH Lvl 5LLM96.275.599.2%
MMLU-PROLLM82.773.890.5%
MMMU75.071.185.0%
SWE-bench VerifiedAgentic70.363.680.9%
τ-benchAgentic81.261.799.3%
Mistral Large 3 2512Mistral AI72.8-