GLM 4.7은 Z.ai(구 Zhipu AI)의 최신 플래그십 모델로, 프로그래밍 능력과 에이전트 워크플로우에서 대폭 강화된 버전입니다. 약 200K 토큰 컨텍스트를 지원하며, GPQA 85.7, MMLU-PRO 84.3, SWE-bench Verified 73.8로 글로벌 최상위 모델들과 경쟁하는 성능을 기록합니다.

GLM 4.7의 가장 주목할 성과는 코딩 벤치마크입니다. SWE-bench Verified 73.8점은 실제 GitHub 이슈 해결 능력에서 GPT-5(74.9)에 근접하는 수준이며, HLE 24.8점과 TerminalBench 33.4점은 고난도 추론과 터미널 작업 자동화에서의 견고한 역량을 보여줍니다. EvasionBench 82.91점은 프롬프트 공격에 대한 높은 안전성도 의미합니다.

입력 $0.39/1M 토큰, 출력$ 1.75/1M 토큰으로 이 성능 수준에서는 매우 경쟁력 있는 가격입니다. 같은 SWE-bench 성능대의 Claude, GPT 모델들보다 상당히 저렴하여 비용 효율적인 코딩 자동화의 유력한 대안이 됩니다.

소프트웨어 엔지니어링 자동화, 코딩 에이전트 구축, 대규모 코드 리뷰 파이프라인, 또는 비용 효율적인 고성능 AI 서비스에 적합합니다. 특히 SWE-bench와 TerminalBench에서의 강세는 DevOps 자동화 분야에서의 활용 가능성을 보여줍니다.

벤치마크

이 모델

단위

EvasionBench

82.9

GPQA

85.7

HLE

24.8

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

GLM 4.7

85.1

o1-pro

86.4

88.8

Grok 4.1 Fast

74.4

Command A

69.1

GLM 4.7

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
GLM 4.7	Z.AI	85.1	-
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-