DBRX
개요
DBRX는 Databricks에서 개발한 오픈소스 범용 대규모 언어 모델이다. Fine-grained Mixture-of-Experts (MoE) 아키텍처를 채택하여 총 1320억 파라미터 중 360억 파라미터만 활성화하여 효율적인 추론이 가능하다. GPT-3.5를 능가하고 Gemini 1.0 Pro와 경쟁하는 성능을 보이며, 특히 프로그래밍에서 강력한 성능을 발휘한다.
- 개발사: Databricks (MosaicML)
- 공개일: 2024년 3월
- 모델 유형: Mixture-of-Experts (MoE) Transformer
사양
| 항목 |
내용 |
| 총 파라미터 수 |
132B |
| 활성 파라미터 수 |
36B |
| 아키텍처 |
Fine-grained MoE (16 experts, 4 active) |
| 컨텍스트 길이 |
32,768 토큰 |
| 학습 데이터 |
12T 토큰 |
| 전문가 수 |
16 (4개 활성) |
| 위치 인코딩 |
RoPE (Rotary Position Embeddings) |
| 어텐션 |
GQA (Grouped Query Attention) |
| 활성화 함수 |
GLU (Gated Linear Units) |
| 토크나이저 |
GPT-4 토크나이저 (tiktoken) |
모델 변형
| 모델명 |
설명 |
| DBRX Base |
사전학습 베이스 모델 |
| DBRX Instruct |
지시 따르기 미세조정 모델 |
라이선스 및 가격
| 항목 |
내용 |
| 라이선스 |
Databricks Open Model License |
| 상업적 사용 |
허용 |
| 오픈소스 |
Hugging Face에서 가중치 공개 |
Databricks 플랫폼 가격
- Mosaic AI Model Serving을 통한 배포
- 사용량 기반 과금 (Databricks 요금제에 따름)
주요 특징
1. Fine-grained MoE 아키텍처
- 16개 전문가 중 4개 활성화 (vs Mixtral/Grok-1: 8개 중 2개)
- 65배 더 많은 전문가 조합 가능
- 모델 품질 향상에 기여
2. 효율적인 추론
- LLaMA2-70B 대비 2배 빠른 추론
- Grok-1 대비 40% 작은 크기
- 최대 150 tok/s/user (Mosaic AI Model Serving)
3. 학습 효율성
- Dense 모델 대비 2배 FLOP 효율적
- MPT 모델 대비 4배 적은 컴퓨트로 동등 품질 달성
- Curriculum Learning 적용
4. 강력한 코드 생성
- HumanEval: 70.1% (CodeLLaMA-70B 67.8% 상회)
- 범용 모델임에도 전문 코드 모델 능가
벤치마크 성능 (DBRX Instruct)
오픈소스 모델 비교
| 벤치마크 |
DBRX |
Mixtral Instruct |
LLaMA2-70B |
Grok-1 |
| Open LLM Leaderboard |
74.5% |
72.7% |
67.9% |
- |
| MMLU (5-shot) |
73.7% |
71.4% |
69.8% |
73.0% |
| HumanEval (0-shot) |
70.1% |
54.8% |
31.0% |
63.2% |
| GSM8k (5-shot) |
66.9% |
61.1% |
54.1% |
62.9% |
| HellaSwag (10-shot) |
89.0% |
87.6% |
87.3% |
- |
| Gauntlet v0.3 |
66.8% |
60.7% |
56.4% |
- |
폐쇄형 모델 비교
| 벤치마크 |
DBRX |
GPT-3.5 |
GPT-4 |
Gemini 1.0 Pro |
| MMLU |
73.7% |
70.0% |
86.4% |
71.8% |
| HumanEval |
70.1% |
48.1% |
67.0% |
67.7% |
| GSM8k |
72.8% |
57.1% |
92.0% |
86.5% |
| HellaSwag |
89.0% |
85.5% |
95.3% |
84.7% |
RAG 성능
| 벤치마크 |
DBRX |
Mixtral |
GPT-3.5 |
GPT-4 |
| Natural Questions |
60.0% |
59.1% |
57.7% |
63.9% |
| HotPotQA |
55.0% |
54.2% |
53.0% |
62.9% |
장점
- 오픈소스로 상업적 사용 가능
- GPT-3.5 능가, Gemini 1.0 Pro와 경쟁
- MoE로 효율적인 추론 (2배 빠름)
- 강력한 코드 생성 능력
- 32K 컨텍스트 지원
- Databricks 플랫폼 통합
단점
- 132B 총 파라미터로 큰 모델 크기
- MoE 학습의 복잡성
- GPT-4 대비 성능 격차 존재
- 멀티 GPU 필요
- Databricks 외 배포 시 추가 설정 필요
참고자료
- Databricks 블로그: https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
- Hugging Face (Base): https://huggingface.co/databricks/dbrx-base
- Hugging Face (Instruct): https://huggingface.co/databricks/dbrx-instruct
- GitHub: https://github.com/databricks/dbrx
- HF Space (Demo): https://huggingface.co/spaces/databricks/dbrx-instruct