콘텐츠로 이동

MPT (MosaicML Pretrained Transformer)

개요

MPT는 MosaicML(현 Databricks)에서 개발한 오픈소스 언어 모델 시리즈다. 상업적으로 사용 가능하며, LLaMA-7B와 동등한 품질을 제공한다. ALiBi(Attention with Linear Biases)를 통해 무제한 컨텍스트 길이를 지원하고, FlashAttention과 FasterTransformer로 최적화되어 빠른 학습과 추론이 가능하다.

  • 개발사: MosaicML (현 Databricks)
  • 공개일: 2023년 5월
  • 모델 유형: GPT-style Decoder-only Transformer

사양

모델 패밀리

모델명 파라미터 학습 데이터 컨텍스트 라이선스
MPT-7B Base 6.7B 1T 토큰 2K (확장 가능) Apache-2.0
MPT-7B-Instruct 6.7B Dolly + HH 2K CC-By-SA-3.0
MPT-7B-Chat 6.7B ShareGPT 등 2K CC-By-NC-SA-4.0
MPT-7B-StoryWriter-65k+ 6.7B books3 소설 65K Apache-2.0
MPT-30B 30B - - Apache-2.0

MPT-7B 상세 사양

항목 내용
파라미터 수 6.7B
학습 데이터 1T 토큰 (텍스트 + 코드)
학습 기간 9.5일
학습 인프라 440 GPU
학습 비용 약 $200,000
위치 인코딩 ALiBi (Attention with Linear Biases)
어텐션 FlashAttention

라이선스 및 가격

모델 라이선스 상업적 사용
MPT-7B Base Apache-2.0 허용
MPT-7B-Instruct CC-By-SA-3.0 허용
MPT-7B-Chat CC-By-NC-SA-4.0 비상업적만
MPT-7B-StoryWriter Apache-2.0 허용

MosaicML 플랫폼 (학습/배포)

  • 자체 MPT 모델 학습 가능
  • 모델 서빙 지원

주요 특징

1. ALiBi (Attention with Linear Biases)

  • 기존 위치 임베딩 대체
  • 학습 시 컨텍스트 길이 제한 없음
  • 더 긴 컨텍스트로 외삽 가능
  • StoryWriter: 65K 학습, 84K 추론 시연

2. 최적화된 성능

  • FlashAttention으로 빠른 학습
  • FasterTransformer로 빠른 추론
  • 40-60% MFU (Model FLOP Utilization)
  • 손실 급등 없이 안정적 학습

3. 자동화된 학습

  • MosaicML 플랫폼에서 무중단 학습
  • 하드웨어 오류 자동 감지 및 복구
  • 9.5일간 4회 하드웨어 오류 자동 처리

4. StoryWriter-65k+

  • 65K 토큰 컨텍스트로 미세조정
  • 84K 토큰까지 외삽 가능
  • 소설 전체를 입력으로 받아 에필로그 생성
  • 약 150K 단어/분 읽기 속도

벤치마크 성능 (MPT-7B vs LLaMA-7B)

벤치마크 MPT-7B LLaMA-7B
HellaSwag 76.4% 76.1%
PIQA 80.1% 79.8%
Winogrande 70.1% 70.1%
ARC-Easy 74.9% 72.8%
ARC-Challenge 46.5% 47.6%
OpenBookQA 43.4% 44.8%
BoolQ 75.0% 75.1%
Jeopardy 31.0% 33.1%

모델 변형 상세

MPT-7B-Instruct

  • 학습 데이터: Dolly-15k + Anthropic HH (4배 확장)
  • 용도: 단문 지시 따르기
  • 라이선스: CC-By-SA-3.0 (상업적 사용 가능)

MPT-7B-Chat

  • 학습 데이터: ShareGPT-Vicuna, HC3, Alpaca, HH, Evol-Instruct
  • 용도: 대화형 챗봇
  • 형식: ChatML 형식
  • 라이선스: CC-By-NC-SA-4.0 (비상업적)

MPT-7B-StoryWriter-65k+

  • 학습 데이터: books3 소설 (65K 토큰 발췌)
  • 용도: 장문 스토리 생성
  • 학습 방식: Next-token prediction 2500 스텝

장점

  1. 상업적 사용 가능 (Base, Instruct, StoryWriter)
  2. LLaMA-7B와 동등한 품질
  3. ALiBi로 무제한 컨텍스트 확장
  4. 빠른 학습 및 추론
  5. 안정적인 학습 (손실 급등 없음)
  6. 전체 학습 코드 공개

단점

  1. 7B 모델로 대형 모델 대비 제한적 성능
  2. Chat 모델은 비상업적 사용만 가능
  3. 영어 중심
  4. Databricks 인수 후 MPT 시리즈 개발 중단
  5. DBRX로 대체됨

학습 데이터 구성 (MPT-7B Base)

소스 비율
mC4 (en) 27%
C4 23%
RedPajama 20%
StarCoder 15%
Wikipedia 8%
Books 7%

참고자료

  • Databricks 블로그: https://www.databricks.com/blog/mpt-7b
  • Hugging Face: https://huggingface.co/mosaicml/mpt-7b
  • LLM Foundry: https://github.com/mosaicml/llm-foundry
  • Composer: https://github.com/mosaicml/composer