Mixtral 8x7B
개요
- 출시일: 2023년 12월 11일
- MoE 구조 여부: Yes (Mixture of Experts)
- 8개의 Expert 모듈
- 각 토큰당 2개의 Expert 활성화
사양
| 항목 |
내용 |
| 파라미터 (총/활성) |
47B (총) / 13B (활성) |
| Context Window |
32K tokens |
| GPU RAM (bf16/fp4) |
약 94GB / 13GB |
라이선스
- Apache 2.0
- 제한 없이 상업적 사용 가능
가격 (API)
| Provider |
Input |
Output |
| Mistral AI |
$0.70/1M tokens |
$0.70/1M tokens |
주요 특징
- Mistral AI 최초의 MoE (Mixture of Experts) 모델
- Sparse MoE 아키텍처로 효율적인 추론
- 각 토큰당 47B 중 13B 파라미터만 활성화
- 다국어 지원: 영어, 프랑스어, 이탈리아어, 독일어, 스페인어
- 강력한 코드 생성 능력
- Instruct 버전과 Base 버전 모두 제공
장점
- 2-3배 큰 Dense 모델과 동등한 성능
- GPT-3.5 Turbo 성능 초과 (대부분의 벤치마크)
- Llama 2 70B 대비 6배 빠른 추론 속도
- Apache 2.0 라이선스로 완전한 오픈소스
- 활성 파라미터 대비 높은 성능
단점/한계
- 총 파라미터 47B로 상당한 VRAM 필요
- MoE 구조로 인한 복잡한 배포
- 2025년 3월 30일 지원 종료 예정 (Mistral Small 3.2로 대체)
- 최신 모델 대비 성능 열위
참고 자료
- 공식 발표: https://mistral.ai/news/mixtral-of-experts
- 기술 보고서: https://arxiv.org/pdf/2401.04088
- HuggingFace (Base): https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
- HuggingFace (Instruct): https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- 공식 문서: https://docs.mistral.ai/models/mixtral-8x7b-0-1