Qwen3 VL 30B A3B Instruct는 Qwen의 비전-언어 통합 멀티모달 모델로, 텍스트와 이미지를 동시에 이해하고 처리합니다. 30B 파라미터에 MoE(Mixture of Experts) 아키텍처를 적용하여 추론 시 3B만 활성화하는 초효율 설계가 특징이며, 131K 토큰 컨텍스트를 지원합니다. 비전 모델임에도 불구하고 텍스트 전용 모델에 근접하는 언어 능력을 유지합니다.

MoE 아키텍처의 핵심 장점은 30B의 풍부한 지식 용량을 3B의 추론 비용으로 활용한다는 것입니다. 이미지 캡셔닝, 시각적 질의응답(VQA), 문서 OCR, 차트 및 그래프 데이터 추출, UI 스크린샷 이해, 의료 영상 판독 보조, 제품 사진 분류 등 다양한 시각적 작업을 경량으로 처리합니다. 한국어와 중국어 텍스트가 포함된 이미지에서도 높은 인식 정확도를 보여줍니다.

입력 $0.13/1M 토큰, 출력$ 0.52/1M 토큰으로 멀티모달 모델 중에서 매우 경제적인 가격입니다. 3B 활성 파라미터 덕분에 소비자 GPU(8GB VRAM)에서도 양자화 실행이 가능한 수준이어서, 클라우드 API와 로컬 엣지 배포 모두에서 유연하게 활용할 수 있습니다.

오픈소스 멀티모달 모델 중 효율성 대비 성능이 최고 수준입니다. 이커머스 상품 사진 자동 분석, 문서 디지털화(OCR) 파이프라인, UI/UX 자동 테스트, 의료 영상 사전 스크리닝 등 시각적 이해가 필요한 자동화 워크플로우에 최적이며, Qwen License로 상업적 배포가 가능합니다.

벤치마크

이 모델

단위

AI2D

57.7

HallusionBench

29.9

MathVista

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

Qwen3 VL 30B A3B Instruct

Qwen VL Max

Llama 3.2 11B Vision Instruct

41.5

Qwen3 VL 30B A3B Instruct

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
Qwen3 VL 30B A3B Instruct	Qwen	-	-
Qwen VL Max	Qwen	-	-
Llama 3.2 11B Vision Instruct	Meta	41.5	-