GLM 4.7은 Z.ai(구 Zhipu AI)의 최신 플래그십 모델로, 프로그래밍 능력과 에이전트 워크플로우에서 대폭 강화된 버전입니다. 약 200K 토큰 컨텍스트를 지원하며, GPQA 85.7, MMLU-PRO 84.3, SWE-bench Verified 73.8로 글로벌 최상위 모델들과 경쟁하는 성능을 기록합니다.
GLM 4.7의 가장 주목할 성과는 코딩 벤치마크입니다. SWE-bench Verified 73.8점은 실제 GitHub 이슈 해결 능력에서 GPT-5(74.9)에 근접하는 수준이며, HLE 24.8점과 TerminalBench 33.4점은 고난도 추론과 터미널 작업 자동화에서의 견고한 역량을 보여줍니다. EvasionBench 82.91점은 프롬프트 공격에 대한 높은 안전성도 의미합니다.
입력 1.75/1M 토큰으로 이 성능 수준에서는 매우 경쟁력 있는 가격입니다. 같은 SWE-bench 성능대의 Claude, GPT 모델들보다 상당히 저렴하여 비용 효율적인 코딩 자동화의 유력한 대안이 됩니다.
소프트웨어 엔지니어링 자동화, 코딩 에이전트 구축, 대규모 코드 리뷰 파이프라인, 또는 비용 효율적인 고성능 AI 서비스에 적합합니다. 특히 SWE-bench와 TerminalBench에서의 강세는 DevOps 자동화 분야에서의 활용 가능성을 보여줍니다.
컨텍스트 윈도우
203K 토큰
라이선스
-
출시일
2025년 12월 22일
가성비 지수
3.5
API 가격 (혼합)
입력 $0.390/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$0.39 / 1M 토큰
출력 (Completion)
$1.75 / 1M 토큰
태스크 관련 벤치마크 평균 점수
84.3
다양한 분야 지식 및 이해
55.3
수학, 과학, 논리적 추론
53.6
코드 생성, 버그 수정, 소프트웨어 엔지니어링
Z.AI
Z.AI의 다른 모델
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| EvasionBench | 82.9 | % |
| GPQA | 85.7 | % |
| HLE | 24.8 |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| GLM 4.7 | 85.1 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
| % |
| MMLU-PRO | 84.3 | % |
| SWE-bench Verified | 73.8 | % |
| TerminalBench | 33.4 | % |
| Mistral Large 3 2512 | 72.8 |