GPT-4o mini는 OpenAI의 경량 멀티모달 모델로, GPT-4o의 핵심 능력을 유지하면서 비용과 속도를 대폭 최적화한 모델입니다. 128K 토큰 컨텍스트를 지원하며 텍스트와 이미지 입력을 모두 처리합니다. MMLU 82, HumanEval 87.2, MATH 70.2로 경량 모델 중에서는 최상위 성능을 기록합니다.

GPT-4o mini의 최대 강점은 가격 대비 성능입니다. 입력 $0.15/1M 토큰, 출력$ 0.60/1M 토큰으로 GPT-4o 대비 약 10배 저렴하면서도, 대부분의 일상적인 작업에서 충분한 품질을 제공합니다. 멀티모달 벤치마크에서도 MMBench 77.1, MMMU 60, ScienceQA 85.4로 이미지 이해 능력이 우수하며, IFEval 80.4점으로 지시 따르기 능력도 갖추고 있습니다.

출시 이후 전 세계적으로 가장 많이 사용되는 AI 모델 중 하나로 자리잡았습니다. 빠른 응답 속도와 낮은 비용 덕분에 챗봇, 콘텐츠 생성, 데이터 추출 등 대량 처리 워크플로우의 표준 모델이 되었습니다. Arena에서도 안정적인 사용자 평가를 받고 있습니다.

고객 서비스 챗봇, 콘텐츠 초안 작성, 이메일 분류 및 요약, 간단한 이미지 분석, 데이터 추출 및 정형화 등 '충분히 좋은 품질을 대량으로 빠르게' 처리해야 하는 대부분의 프로덕션 워크플로우에 적합합니다. 고도의 추론이 필요한 작업에는 GPT-4o나 o3를 권장합니다.

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
GPT-4o-mini	OpenAI	62.6	-
Nova Pro 1.0	Amazon	68.4	-
Gemma 4	Google	86.2	-
Claude 3 Haiku	Anthropic	46.5	-
Nova Premier 1.0	Amazon	73.2

AI2D		77.8	81.3	93.9	%
GPQA	LLM	40.2	64.0	94.3	%
HallusionBench		46.1	48.9	64.1	%
HumanEval	LLM	87.2	86.0	97.6	%
IFEval	LLM	80.4	85.3	95.9	%
MATH Lvl 5	LLM	70.2	75.5	99.2	%
MathVista		52.5	56.0	80.9	%
MMBench		77.1	74.5	93.7	%
MMLU		82.0	84.2	98.0	%
MMLU-PRO	LLM	64.8	73.8	90.5	%
MMMU		60.0	71.1	85.0	%
MMStar		54.8	59.8	83.8	%
MMVet		66.9	61.6	83.3	%
RealWorldQA		67.1	63.0	76.5	%
ScienceQA		85.4	79.2	90.1	%
SWE-bench Verified	Agentic	8.7	63.6	80.9	%

GPT-4o-mini

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

관련 블로그 글

댓글

유사 모델