콘텐츠로 이동

DBRX

개요

DBRX는 Databricks에서 개발한 오픈소스 범용 대규모 언어 모델이다. Fine-grained Mixture-of-Experts (MoE) 아키텍처를 채택하여 총 1320억 파라미터 중 360억 파라미터만 활성화하여 효율적인 추론이 가능하다. GPT-3.5를 능가하고 Gemini 1.0 Pro와 경쟁하는 성능을 보이며, 특히 프로그래밍에서 강력한 성능을 발휘한다.

  • 개발사: Databricks (MosaicML)
  • 공개일: 2024년 3월
  • 모델 유형: Mixture-of-Experts (MoE) Transformer

사양

항목 내용
총 파라미터 수 132B
활성 파라미터 수 36B
아키텍처 Fine-grained MoE (16 experts, 4 active)
컨텍스트 길이 32,768 토큰
학습 데이터 12T 토큰
전문가 수 16 (4개 활성)
위치 인코딩 RoPE (Rotary Position Embeddings)
어텐션 GQA (Grouped Query Attention)
활성화 함수 GLU (Gated Linear Units)
토크나이저 GPT-4 토크나이저 (tiktoken)

모델 변형

모델명 설명
DBRX Base 사전학습 베이스 모델
DBRX Instruct 지시 따르기 미세조정 모델

라이선스 및 가격

항목 내용
라이선스 Databricks Open Model License
상업적 사용 허용
오픈소스 Hugging Face에서 가중치 공개

Databricks 플랫폼 가격

  • Mosaic AI Model Serving을 통한 배포
  • 사용량 기반 과금 (Databricks 요금제에 따름)

주요 특징

1. Fine-grained MoE 아키텍처

  • 16개 전문가 중 4개 활성화 (vs Mixtral/Grok-1: 8개 중 2개)
  • 65배 더 많은 전문가 조합 가능
  • 모델 품질 향상에 기여

2. 효율적인 추론

  • LLaMA2-70B 대비 2배 빠른 추론
  • Grok-1 대비 40% 작은 크기
  • 최대 150 tok/s/user (Mosaic AI Model Serving)

3. 학습 효율성

  • Dense 모델 대비 2배 FLOP 효율적
  • MPT 모델 대비 4배 적은 컴퓨트로 동등 품질 달성
  • Curriculum Learning 적용

4. 강력한 코드 생성

  • HumanEval: 70.1% (CodeLLaMA-70B 67.8% 상회)
  • 범용 모델임에도 전문 코드 모델 능가

벤치마크 성능 (DBRX Instruct)

오픈소스 모델 비교

벤치마크 DBRX Mixtral Instruct LLaMA2-70B Grok-1
Open LLM Leaderboard 74.5% 72.7% 67.9% -
MMLU (5-shot) 73.7% 71.4% 69.8% 73.0%
HumanEval (0-shot) 70.1% 54.8% 31.0% 63.2%
GSM8k (5-shot) 66.9% 61.1% 54.1% 62.9%
HellaSwag (10-shot) 89.0% 87.6% 87.3% -
Gauntlet v0.3 66.8% 60.7% 56.4% -

폐쇄형 모델 비교

벤치마크 DBRX GPT-3.5 GPT-4 Gemini 1.0 Pro
MMLU 73.7% 70.0% 86.4% 71.8%
HumanEval 70.1% 48.1% 67.0% 67.7%
GSM8k 72.8% 57.1% 92.0% 86.5%
HellaSwag 89.0% 85.5% 95.3% 84.7%

RAG 성능

벤치마크 DBRX Mixtral GPT-3.5 GPT-4
Natural Questions 60.0% 59.1% 57.7% 63.9%
HotPotQA 55.0% 54.2% 53.0% 62.9%

장점

  1. 오픈소스로 상업적 사용 가능
  2. GPT-3.5 능가, Gemini 1.0 Pro와 경쟁
  3. MoE로 효율적인 추론 (2배 빠름)
  4. 강력한 코드 생성 능력
  5. 32K 컨텍스트 지원
  6. Databricks 플랫폼 통합

단점

  1. 132B 총 파라미터로 큰 모델 크기
  2. MoE 학습의 복잡성
  3. GPT-4 대비 성능 격차 존재
  4. 멀티 GPU 필요
  5. Databricks 외 배포 시 추가 설정 필요

참고자료

  • Databricks 블로그: https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
  • Hugging Face (Base): https://huggingface.co/databricks/dbrx-base
  • Hugging Face (Instruct): https://huggingface.co/databricks/dbrx-instruct
  • GitHub: https://github.com/databricks/dbrx
  • HF Space (Demo): https://huggingface.co/spaces/databricks/dbrx-instruct