Kimi K2.5는 중국 AI 기업 MoonshotAI의 최신 네이티브 멀티모달 모델로, 현시점에서 가장 주목받는 신흥 AI 모델 중 하나입니다. 262K 토큰 컨텍스트를 지원하며, AIME 2026 95.83, HMMT 2026 87.12, HLE 50.2, SWE-bench Verified 70.8이라는 놀라운 벤치마크 성능을 기록합니다.

Kimi K2.5의 가장 충격적인 성과는 HLE(Humanity's Last Exam) 50.2점입니다. 이는 인류 최종 시험이라 불리는 최고 난이도 벤치마크에서 절반 이상의 정답률을 달성한 것으로, 글로벌 최상위 수준입니다. AIME 95.83, HMMT 87.12로 수학 올림피아드에서도 압도적이며, SWE-bench Verified 70.8, SWE-Pro 50.7, TerminalBench 43.2로 코딩 자동화에서도 최상위권입니다. OSWorld 63.3점은 GUI 기반 작업 자동화에서의 놀라운 에이전트 역량을 보여줍니다.

입력 $0.45/1M 토큰, 출력$ 2.20/1M 토큰으로 이 성능 수준에서는 파격적으로 저렴합니다. IFEval 89.8, MATH 97.4로 지시 따르기와 수학에서도 최상위이며, 다국어 코딩(SWE-bench Multilingual 67.3)도 강력합니다.

최고 난이도 추론 작업, 코딩 에이전트 구축, 수학/과학 연구 보조, GUI 자동화, 또는 비용 효율적인 최상위 AI 솔루션에 적합합니다.

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

Kimi K2.5

84.6

o1-pro

86.4

88.8

Grok 4.1 Fast

74.4

Command A

69.1

AIME 2026		95.8	89.1	95.8	%
BBH		0.5	21.6	93.1	%
GPQA	LLM	75.1	64.0	94.3	%
HLE		50.2	30.1	51.0	%
HMMT 2026		87.1	84.1	87.1	%
IFEval	LLM	89.8	85.3	95.9	%
MATH Lvl 5	LLM	97.4	75.5	99.2	%
MMLU-PRO	LLM	81.1	73.8	90.5	%
MUSR		0.4	0.4	0.5	%
OSWorld	Agentic	63.3	51.5	72.7	%
SWE-bench Multilingual		67.3	66.2	69.7	%
SWE-bench Verified	Agentic	70.8	63.6	80.9	%
SWE-Pro		50.7	34.0	55.4	%
TerminalBench		43.2	41.3	59.3	%

Kimi K2.5

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
Kimi K2.5	Moonshot AI	84.6	67.7
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-