콘텐츠로 이동

Mixtral 8x22B

개요

  • 출시일: 2024년 4월 17일
  • MoE 구조 여부: Yes (Mixture of Experts)
  • 8개의 Expert 모듈
  • 각 토큰당 2개의 Expert 활성화

사양

항목 내용
파라미터 (총/활성) 141B (총) / 39B (활성)
Context Window 64K tokens
GPU RAM (bf16/fp4) 약 283GB / 71GB

라이선스

  • Apache 2.0
  • 제한 없이 상업적 사용 가능

가격 (API)

Provider Input Output
Mistral AI $2.00/1M tokens $6.00/1M tokens

주요 특징

  • Mixtral 8x7B의 대형 후속 모델
  • 64K 확장된 컨텍스트 윈도우
  • 대규모 MoE 아키텍처
  • 각 토큰당 141B 중 39B 파라미터만 활성화
  • 강화된 다국어 지원
  • 향상된 수학 및 코딩 능력
  • Function Calling 지원

장점

  • Apache 2.0 라이선스로 완전한 오픈소스
  • 훨씬 큰 Dense 모델과 경쟁하는 성능
  • 64K 컨텍스트로 장문 처리 가능
  • MoE 구조로 효율적인 추론
  • 강력한 코드 생성 및 수학적 추론

단점/한계

  • 141B 총 파라미터로 매우 높은 VRAM 요구
  • 멀티 GPU 구성 필요 (대부분의 경우)
  • 2025년 3월 30일 지원 종료 예정 (Mistral Small 3.2로 대체)
  • MoE 구조로 인한 배포 복잡성

참고 자료

  • 공식 발표: https://mistral.ai/news/mixtral-8x22b
  • HuggingFace (Base): https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
  • HuggingFace (Instruct): https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
  • 공식 문서: https://docs.mistral.ai/models/mixtral-8x22b-0-1-0-3