Qwen3 VL 30B A3B Instruct는 Qwen의 비전-언어 통합 멀티모달 모델로, 텍스트와 이미지를 동시에 이해하고 처리합니다. 30B 파라미터에 MoE(Mixture of Experts) 아키텍처를 적용하여 추론 시 3B만 활성화하는 초효율 설계가 특징이며, 131K 토큰 컨텍스트를 지원합니다. 비전 모델임에도 불구하고 텍스트 전용 모델에 근접하는 언어 능력을 유지합니다.
MoE 아키텍처의 핵심 장점은 30B의 풍부한 지식 용량을 3B의 추론 비용으로 활용한다는 것입니다. 이미지 캡셔닝, 시각적 질의응답(VQA), 문서 OCR, 차트 및 그래프 데이터 추출, UI 스크린샷 이해, 의료 영상 판독 보조, 제품 사진 분류 등 다양한 시각적 작업을 경량으로 처리합니다. 한국어와 중국어 텍스트가 포함된 이미지에서도 높은 인식 정확도를 보여줍니다.
입력 0.52/1M 토큰으로 멀티모달 모델 중에서 매우 경제적인 가격입니다. 3B 활성 파라미터 덕분에 소비자 GPU(8GB VRAM)에서도 양자화 실행이 가능한 수준이어서, 클라우드 API와 로컬 엣지 배포 모두에서 유연하게 활용할 수 있습니다.
오픈소스 멀티모달 모델 중 효율성 대비 성능이 최고 수준입니다. 이커머스 상품 사진 자동 분석, 문서 디지털화(OCR) 파이프라인, UI/UX 자동 테스트, 의료 영상 사전 스크리닝 등 시각적 이해가 필요한 자동화 워크플로우에 최적이며, Qwen License로 상업적 배포가 가능합니다.
컨텍스트 윈도우
131K 토큰
라이선스
Qwen License
출시일
2025년 10월 7일
학습 마감일
2025년 3월 31일
가성비 지수
6.6
API 가격 (혼합)
입력 $0.130/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$0.13 / 1M 토큰
출력 (Completion)
$0.52 / 1M 토큰
태스크 관련 벤치마크 평균 점수
34.9
이미지, 비디오 등 멀티모달 이해
Qwen
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| AI2D | 57.7 | % |
| HallusionBench | 29.9 | % |
| MathVista |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| Qwen3 VL 30B A3B Instruct | - |
| Qwen VL Max | - |
| Llama 3.2 11B Vision Instruct | 41.5 |
| 18.1 |
| % |
| MMBench | 41.6 | % |
| MMMU | 29.6 | % |
| MMStar | 32.5 | % |
| MMVet | 13.0 | % |
| RealWorldQA | 37.8 | % |
| ScienceQA | 61.1 | % |