Mixtral 8x7B Instruct는 Mistral AI가 2023년 12월 공개한 역사적인 Sparse Mixture of Experts(SMoE) 모델입니다. 8개의 7B 파라미터 전문가 모듈 중 입력 토큰마다 상위 2개만 동적으로 활성화하는 구조로, 총 46.7B 파라미터이지만 추론 시 약 12.9B만 사용하여 7B급의 빠른 속도로 훨씬 높은 성능을 달성합니다. 32K 토큰 컨텍스트를 지원합니다.

이 모델의 역사적 의미는 Mixture of Experts 아키텍처의 실용성을 최초로 대규모 입증했다는 점입니다. 출시 당시 GPT-3.5 Turbo와 비슷하거나 일부 벤치마크에서 더 높은 성능을 보여주며, '오픈소스 모델도 상용 API와 경쟁할 수 있다'는 것을 증명했습니다. MMLU 70.6, GSM8K 74.4, HumanEval 45.4로 당시 오픈소스 기준 최고 수준이었습니다. 이후 DeepSeek, Qwen 등 많은 후속 모델들이 MoE 아키텍처를 채택하는 계기가 되었습니다.

Apache 2.0 라이선스로 완전 오픈소스이며, 어떤 상업적 용도로도 자유롭게 사용할 수 있습니다. 입력과 출력 모두 $0.54/1M 토큰으로 매우 저렴합니다. 현재는 후속 모델(Mixtral 8x22B, Mistral Large 등)에 의해 성능이 추월되었지만, MoE의 원조 모델로서 아키텍처 연구와 교육에 여전히 큰 가치가 있습니다.

MoE 아키텍처 학습 및 연구, 비용에 극도로 민감한 대량 처리, 제한된 인프라에서의 경량 배포, 또는 Apache 2.0의 완전한 자유가 필수인 프로젝트에 적합합니다. 더 높은 성능이 필요하다면 후속 모델인 Mixtral 8x22B나 Mistral Large로의 업그레이드를 권장합니다.

벤치마크

이 모델

단위

Arena Elo

1196.0

elo

모델

LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval

Mixtral 8x7B Instruct

35.6

o1-pro

86.4

88.8

Grok 4.1 Fast

74.4

Command A

69.1

Mixtral 8x7B Instruct

스펙

용도별 성능

Provider

분류

성능 평가

유사 모델 비교

댓글

모델	Provider	LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval	Agentic 점수SWE·τ-bench·OSWorld·GAIA
Mixtral 8x7B Instruct	Mistral AI	35.6	-
o1-pro	OpenAI	86.4	-
o3	OpenAI	88.8	47.7
Grok 4.1 Fast	xAI	74.4	-
Command A	Cohere	69.1