Mixtral 8x7B Instruct는 Mistral AI가 2023년 12월 공개한 역사적인 Sparse Mixture of Experts(SMoE) 모델입니다. 8개의 7B 파라미터 전문가 모듈 중 입력 토큰마다 상위 2개만 동적으로 활성화하는 구조로, 총 46.7B 파라미터이지만 추론 시 약 12.9B만 사용하여 7B급의 빠른 속도로 훨씬 높은 성능을 달성합니다. 32K 토큰 컨텍스트를 지원합니다.
이 모델의 역사적 의미는 Mixture of Experts 아키텍처의 실용성을 최초로 대규모 입증했다는 점입니다. 출시 당시 GPT-3.5 Turbo와 비슷하거나 일부 벤치마크에서 더 높은 성능을 보여주며, '오픈소스 모델도 상용 API와 경쟁할 수 있다'는 것을 증명했습니다. MMLU 70.6, GSM8K 74.4, HumanEval 45.4로 당시 오픈소스 기준 최고 수준이었습니다. 이후 DeepSeek, Qwen 등 많은 후속 모델들이 MoE 아키텍처를 채택하는 계기가 되었습니다.
Apache 2.0 라이선스로 완전 오픈소스이며, 어떤 상업적 용도로도 자유롭게 사용할 수 있습니다. 입력과 출력 모두 $0.54/1M 토큰으로 매우 저렴합니다. 현재는 후속 모델(Mixtral 8x22B, Mistral Large 등)에 의해 성능이 추월되었지만, MoE의 원조 모델로서 아키텍처 연구와 교육에 여전히 큰 가치가 있습니다.
MoE 아키텍처 학습 및 연구, 비용에 극도로 민감한 대량 처리, 제한된 인프라에서의 경량 배포, 또는 Apache 2.0의 완전한 자유가 필수인 프로젝트에 적합합니다. 더 높은 성능이 필요하다면 후속 모델인 Mixtral 8x22B나 Mistral Large로의 업그레이드를 권장합니다.
컨텍스트 윈도우
33K 토큰
라이선스
Apache 2.0
출시일
2023년 12월 10일
학습 마감일
2023년 12월 31일
가성비 지수
5.5
API 가격 (혼합)
입력 $0.540/1M
조회수
0
API 가격 (USD 기준)
입력 (Prompt)
$0.54 / 1M 토큰
출력 (Completion)
$0.54 / 1M 토큰
태스크 관련 벤치마크 평균 점수
56.0
복잡한 지시사항 이해 및 수행
45.4
코드 생성, 버그 수정, 소프트웨어 엔지니어링
36.9
다양한 분야 지식 및 이해
Mistral AI
꼭지점 클릭 → 벤치마크 행 이동
| 벤치마크 | 이 모델 | 단위 |
|---|---|---|
| Arena Elo | 1196.0 | elo |
| 모델 | LLM 점수GPQA·MMLU·MATH·IFEval·HumanEval |
|---|---|
| Mixtral 8x7B Instruct | 35.6 |
| o1-pro | 86.4 |
| o3 | 88.8 |
| Grok 4.1 Fast | 74.4 |
| Command A | 69.1 |
29.3
수학, 과학, 논리적 추론
| 0.5 |
| % |
| GPQA | 30.3 | % |
| GSM8K | 74.4 | % |
| HumanEval | 45.4 | % |
| IFEval | 56.0 | % |
| MATH Lvl 5 | 28.4 | % |
| MMLU | 70.6 | % |
| MMLU-PRO | 36.9 | % |
| MUSR | 0.4 | % |
| Mistral Large 3 2512 | 72.8 |