Qwen VL Max는 알리바바 클라우드의 최상위 비전-언어 멀티모달 모델로, 이미지와 텍스트를 동시에 이해하는 데 최적화되어 있습니다. 131K 토큰 컨텍스트를 지원하며, ScienceQA 80, AI2D 75.7, MMBench 75.4 등 시각적 이해 벤치마크에서 고르게 높은 성능을 보여줍니다.

Qwen VL Max의 강점은 다양한 시각적 작업에서의 균형 잡힌 성능입니다. MMMU 52점은 대학 수준의 멀티모달 이해력을, MathVista 43.6점은 수학적 시각화 이해력을, MMVet 61.8점은 복합적인 시각-언어 추론 능력을 각각 보여줍니다. RealWorldQA 61.3점은 실제 세계 사진에 대한 질문 응답에서도 실용적인 수준의 성능을 의미합니다.

입력 $0.52/1M 토큰, 출력$ 2.08/1M 토큰으로 프리미엄 멀티모달 모델 중에서는 합리적인 가격대입니다. 알리바바 클라우드의 DashScope API를 통해 접근하며, 한국어와 중국어 텍스트가 포함된 이미지에서도 높은 인식 정확도를 제공합니다. Qwen License로 상업적 사용이 가능합니다.

이커머스 상품 이미지 자동 분류 및 설명 생성, 문서와 차트의 자동 분석, 교육 콘텐츠의 시각적 질의응답, UI 스크린샷 기반 테스트 자동화 등에 적합합니다. 특히 아시아 언어 기반의 멀티모달 서비스 구축에서 영어 중심 모델 대비 더 정확한 결과를 제공합니다.

벤치마크

이 모델

단위

AI2D

75.7

HallusionBench

41.2

MathVista

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

Qwen VL Max

Qwen3 VL 30B A3B Instruct

Llama 3.2 11B Vision Instruct

41.5

Qwen VL Max

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
Qwen VL Max	Qwen	-	-
Qwen3 VL 30B A3B Instruct	Qwen	-	-
Llama 3.2 11B Vision Instruct	Meta	41.5	-

벤치마크	이 모델	전체 평균	전체 최고	단위
AI2D	75.7	81.3	93.9	%
HallusionBench	41.2	48.9	64.1	%
MathVista