Kimi K2.5는 중국 AI 기업 MoonshotAI의 최신 네이티브 멀티모달 모델로, 현시점에서 가장 주목받는 신흥 AI 모델 중 하나입니다. 262K 토큰 컨텍스트를 지원하며, AIME 2026 95.83, HMMT 2026 87.12, HLE 50.2, SWE-bench Verified 70.8이라는 놀라운 벤치마크 성능을 기록합니다.
Kimi K2.5의 가장 충격적인 성과는 HLE(Humanity's Last Exam) 50.2점입니다. 이는 인류 최종 시험이라 불리는 최고 난이도 벤치마크에서 절반 이상의 정답률을 달성한 것으로, 글로벌 최상위 수준입니다. AIME 95.83, HMMT 87.12로 수학 올림피아드에서도 압도적이며, SWE-bench Verified 70.8, SWE-Pro 50.7, TerminalBench 43.2로 코딩 자동화에서도 최상위권입니다. OSWorld 63.3점은 GUI 기반 작업 자동화에서의 놀라운 에이전트 역량을 보여줍니다.
입력 2.20/1M 토큰으로 이 성능 수준에서는 파격적으로 저렴합니다. IFEval 89.8, MATH 97.4로 지시 따르기와 수학에서도 최상위이며, 다국어 코딩(SWE-bench Multilingual 67.3)도 강력합니다.
최고 난이도 추론 작업, 코딩 에이전트 구축, 수학/과학 연구 보조, GUI 자동화, 또는 비용 효율적인 최상위 AI 솔루션에 적합합니다.
컨텍스트 윈도우
262K 토큰
라이선스
-
출시일
2026년 1월 27일
가성비 지수
2.7
API 가격 (혼합)
입력 $0.450/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$0.45 / 1M 토큰
출력 (Completion)
$2.20 / 1M 토큰
태스크 관련 벤치마크 평균 점수
89.8
복잡한 지시사항 이해 및 수행
81.1
다양한 분야 지식 및 이해
79.6
수학, 과학, 논리적 추론
Moonshot AI
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 |
|---|
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| Kimi K2.5 | 84.6 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
57.0
코드 생성, 버그 수정, 소프트웨어 엔지니어링
| 단위 |
|---|
| AIME 2026 | 95.8 | % |
| BBH | 0.5 | % |
| GPQA | 75.1 | % |
| HLE | 50.2 | % |
| HMMT 2026 | 87.1 | % |
| IFEval | 89.8 | % |
| MATH Lvl 5 | 97.4 | % |
| MMLU-PRO | 81.1 | % |
| MUSR | 0.4 | % |
| OSWorld | 63.3 | % |
| SWE-bench Multilingual | 67.3 | % |
| SWE-bench Verified | 70.8 | % |
| SWE-Pro | 50.7 | % |
| TerminalBench | 43.2 | % |
| Mistral Large 3 2512 |
| 72.8 |