콘텐츠로 이동

Mixtral 8x7B

개요

  • 출시일: 2023년 12월 11일
  • MoE 구조 여부: Yes (Mixture of Experts)
  • 8개의 Expert 모듈
  • 각 토큰당 2개의 Expert 활성화

사양

항목 내용
파라미터 (총/활성) 47B (총) / 13B (활성)
Context Window 32K tokens
GPU RAM (bf16/fp4) 약 94GB / 13GB

라이선스

  • Apache 2.0
  • 제한 없이 상업적 사용 가능

가격 (API)

Provider Input Output
Mistral AI $0.70/1M tokens $0.70/1M tokens

주요 특징

  • Mistral AI 최초의 MoE (Mixture of Experts) 모델
  • Sparse MoE 아키텍처로 효율적인 추론
  • 각 토큰당 47B 중 13B 파라미터만 활성화
  • 다국어 지원: 영어, 프랑스어, 이탈리아어, 독일어, 스페인어
  • 강력한 코드 생성 능력
  • Instruct 버전과 Base 버전 모두 제공

장점

  • 2-3배 큰 Dense 모델과 동등한 성능
  • GPT-3.5 Turbo 성능 초과 (대부분의 벤치마크)
  • Llama 2 70B 대비 6배 빠른 추론 속도
  • Apache 2.0 라이선스로 완전한 오픈소스
  • 활성 파라미터 대비 높은 성능

단점/한계

  • 총 파라미터 47B로 상당한 VRAM 필요
  • MoE 구조로 인한 복잡한 배포
  • 2025년 3월 30일 지원 종료 예정 (Mistral Small 3.2로 대체)
  • 최신 모델 대비 성능 열위

참고 자료

  • 공식 발표: https://mistral.ai/news/mixtral-of-experts
  • 기술 보고서: https://arxiv.org/pdf/2401.04088
  • HuggingFace (Base): https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
  • HuggingFace (Instruct): https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
  • 공식 문서: https://docs.mistral.ai/models/mixtral-8x7b-0-1