MiniMax M2.5는 MiniMax의 최신 플래그십 모델로, M2 시리즈의 최종 진화 버전입니다. 196K 토큰 컨텍스트를 지원하며, GPQA 85.2, SWE-bench Verified 75.8이라는 인상적인 성능으로 글로벌 최상위 모델들과 직접 경쟁합니다. 특히 SWE-bench 75.8점은 2025년 기준 최상위권에 해당하는 소프트웨어 엔지니어링 역량입니다.

M2.5의 가장 주목할 만한 성과는 코딩 벤치마크입니다. SWE-bench Verified 75.8점은 실제 GitHub 이슈를 자동으로 해결하는 능력을 측정하며, SWE-Pro 55.4점은 더 어려운 프로 레벨 코딩 과제에서의 성능을 보여줍니다. 이 수준의 점수는 코딩 에이전트로서 실무 투입이 충분히 가능한 수준이며, Claude Sonnet이나 GPT-4o와 직접 비교되는 영역입니다. HLE(Humanity's Last Exam) 19.4점도 고난도 학술 추론 역량을 입증합니다.

입력 $0.20/1M 토큰, 출력$ 1.17/1M 토큰으로 최상위 성능 대비 매우 경쟁력 있는 가격입니다. 같은 SWE-bench 성능대의 Claude, GPT, Gemini 모델들보다 3배 이상 저렴한 경우가 많아, 비용 효율적인 코딩 자동화의 핵심 대안이 됩니다.

MiniMax의 멀티모달 생태계(음성 합성, 이미지 생성, 비디오)와 결합하면 텍스트-음성-이미지를 아우르는 통합 AI 서비스를 단일 플랫폼에서 구축할 수 있습니다. 대규모 코드 리뷰 자동화, 텍스트 분석 파이프라인, 비용 최적화가 핵심인 엔터프라이즈 AI 솔루션에 특히 적합합니다.

벤치마크

이 모델

단위

GPQA

85.2

HLE

19.4

SWE-bench Verified

75.8

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

MiniMax M2.5

o1-pro

86.4

88.8

Grok 4.1 Fast

74.4

Command A

69.1

MiniMax M2.5

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

벤치마크	카테고리	이 모델	전체 평균	전체 최고	단위
GPQA	LLM	85.2	64.0	94.3	%
HLE		19.4	30.1	51.0	%
SWE-bench Verified	Agentic	75.8	63.6	80.9

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
MiniMax M2.5	MiniMax	-	-
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1