GPT-4.1 Mini는 OpenAI의 중간 크기 모델로, GPT-4o에 근접하는 성능을 훨씬 낮은 비용으로 제공합니다. 약 100만 토큰(1M)이라는 초대형 컨텍스트 윈도우가 가장 큰 차별점이며, MMLU 87.5, HumanEval 93.8, MATH 81.4로 견고한 성능을 기록합니다.
1M 토큰 컨텍스트는 GPT-4o mini의 128K보다 8배 크며, 이는 실무에서 획기적인 차이를 만듭니다. 대규모 코드베이스 전체, 수백 페이지의 매뉴얼, 또는 장기간의 대화 기록을 한 번에 처리할 수 있습니다. MMLU-PRO 78.1, GPQA 65점으로 학술 지식과 과학 추론에서도 실용적인 수준이며, IFEval 84.1점은 복잡한 지시사항을 정확히 따르는 능력을 보여줍니다.
입력 1.60/1M 토큰으로 GPT-4o 대비 크게 저렴하면서도 GPT-4o mini보다 높은 성능을 제공하는 중간 포지션입니다. 특히 긴 컨텍스트가 필요한 작업에서는 RAG 파이프라인 없이 직접 전체 문서를 주입할 수 있어 아키텍처 복잡도를 줄여줍니다.
대규모 문서 분석, 장문 코드 리뷰, 긴 대화 맥락이 중요한 챗봇, RAG 대체 long-context 접근 방식, 또는 GPT-4o mini보다 높은 품질이 필요하지만 GPT-4o의 비용이 부담인 중간 규모 프로젝트에 이상적입니다.
컨텍스트 윈도우
1.0M 토큰
라이선스
Proprietary
출시일
2025년 4월 15일
학습 마감일
2024년 6월 30일
가성비 지수
4.4
API 가격 (혼합)
입력 $0.400/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$0.40 / 1M 토큰
출력 (Completion)
$1.60 / 1M 토큰
태스크 관련 벤치마크 평균 점수
84.1
복잡한 지시사항 이해 및 수행
78.1
다양한 분야 지식 및 이해
73.2
수학, 과학, 논리적 추론
OpenAI
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| GPQA | 65.0 | % |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| GPT-4.1 Mini | 77.2 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
58.7
코드 생성, 버그 수정, 소프트웨어 엔지니어링
| HumanEval |
| 93.8 |
| % |
| IFEval | 84.1 | % |
| MATH Lvl 5 | 81.4 | % |
| MMLU | 87.5 | % |
| MMLU-PRO | 78.1 | % |
| SWE-bench Verified | 23.6 | % |
| Mistral Large 3 2512 | 72.8 |