GPT-4.1 Mini는 OpenAI의 중간 크기 모델로, GPT-4o에 근접하는 성능을 훨씬 낮은 비용으로 제공합니다. 약 100만 토큰(1M)이라는 초대형 컨텍스트 윈도우가 가장 큰 차별점이며, MMLU 87.5, HumanEval 93.8, MATH 81.4로 견고한 성능을 기록합니다.

1M 토큰 컨텍스트는 GPT-4o mini의 128K보다 8배 크며, 이는 실무에서 획기적인 차이를 만듭니다. 대규모 코드베이스 전체, 수백 페이지의 매뉴얼, 또는 장기간의 대화 기록을 한 번에 처리할 수 있습니다. MMLU-PRO 78.1, GPQA 65점으로 학술 지식과 과학 추론에서도 실용적인 수준이며, IFEval 84.1점은 복잡한 지시사항을 정확히 따르는 능력을 보여줍니다.

입력 $0.40/1M 토큰, 출력$ 1.60/1M 토큰으로 GPT-4o 대비 크게 저렴하면서도 GPT-4o mini보다 높은 성능을 제공하는 중간 포지션입니다. 특히 긴 컨텍스트가 필요한 작업에서는 RAG 파이프라인 없이 직접 전체 문서를 주입할 수 있어 아키텍처 복잡도를 줄여줍니다.

대규모 문서 분석, 장문 코드 리뷰, 긴 대화 맥락이 중요한 챗봇, RAG 대체 long-context 접근 방식, 또는 GPT-4o mini보다 높은 품질이 필요하지만 GPT-4o의 비용이 부담인 중간 규모 프로젝트에 이상적입니다.

벤치마크

이 모델

단위

GPQA

65.0

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

GPT-4.1 Mini

77.2

o1-pro

86.4

88.8

Grok 4.1 Fast

74.4

Command A

69.1

GPT-4.1 Mini

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
GPT-4.1 Mini	OpenAI	77.2	-
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1	-