Qwen VL Max는 알리바바 클라우드의 최상위 비전-언어 멀티모달 모델로, 이미지와 텍스트를 동시에 이해하는 데 최적화되어 있습니다. 131K 토큰 컨텍스트를 지원하며, ScienceQA 80, AI2D 75.7, MMBench 75.4 등 시각적 이해 벤치마크에서 고르게 높은 성능을 보여줍니다.
Qwen VL Max의 강점은 다양한 시각적 작업에서의 균형 잡힌 성능입니다. MMMU 52점은 대학 수준의 멀티모달 이해력을, MathVista 43.6점은 수학적 시각화 이해력을, MMVet 61.8점은 복합적인 시각-언어 추론 능력을 각각 보여줍니다. RealWorldQA 61.3점은 실제 세계 사진에 대한 질문 응답에서도 실용적인 수준의 성능을 의미합니다.
입력 2.08/1M 토큰으로 프리미엄 멀티모달 모델 중에서는 합리적인 가격대입니다. 알리바바 클라우드의 DashScope API를 통해 접근하며, 한국어와 중국어 텍스트가 포함된 이미지에서도 높은 인식 정확도를 제공합니다. Qwen License로 상업적 사용이 가능합니다.
이커머스 상품 이미지 자동 분류 및 설명 생성, 문서와 차트의 자동 분석, 교육 콘텐츠의 시각적 질의응답, UI 스크린샷 기반 테스트 자동화 등에 적합합니다. 특히 아시아 언어 기반의 멀티모달 서비스 구축에서 영어 중심 모델 대비 더 정확한 결과를 제공합니다.
컨텍스트 윈도우
131K 토큰
라이선스
Qwen License
출시일
2025년 2월 2일
학습 마감일
2025년 3월 31일
가성비 지수
2.8
API 가격 (혼합)
입력 $0.520/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$0.52 / 1M 토큰
출력 (Completion)
$2.08 / 1M 토큰
태스크 관련 벤치마크 평균 점수
62.9
이미지, 비디오 등 멀티모달 이해
Qwen
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| AI2D | 75.7 | % |
| HallusionBench | 41.2 | % |
| MathVista |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| Qwen VL Max | - |
| Qwen3 VL 30B A3B Instruct | - |
| Llama 3.2 11B Vision Instruct | 41.5 |
| 43.6 |
| % |
| MMBench | 75.4 | % |
| MMMU | 52.0 | % |
| MMStar | 49.5 | % |
| MMVet | 61.8 | % |
| RealWorldQA | 61.3 | % |
| ScienceQA | 80.0 | % |