DBRX¶

개요¶

DBRX는 Databricks에서 개발한 오픈소스 범용 대규모 언어 모델이다. Fine-grained Mixture-of-Experts (MoE) 아키텍처를 채택하여 총 1320억 파라미터 중 360억 파라미터만 활성화하여 효율적인 추론이 가능하다. GPT-3.5를 능가하고 Gemini 1.0 Pro와 경쟁하는 성능을 보이며, 특히 프로그래밍에서 강력한 성능을 발휘한다.

개발사: Databricks (MosaicML)
공개일: 2024년 3월
모델 유형: Mixture-of-Experts (MoE) Transformer

사양¶

항목	내용
총 파라미터 수	132B
활성 파라미터 수	36B
아키텍처	Fine-grained MoE (16 experts, 4 active)
컨텍스트 길이	32,768 토큰
학습 데이터	12T 토큰
전문가 수	16 (4개 활성)
위치 인코딩	RoPE (Rotary Position Embeddings)
어텐션	GQA (Grouped Query Attention)
활성화 함수	GLU (Gated Linear Units)
토크나이저	GPT-4 토크나이저 (tiktoken)

모델 변형¶

모델명	설명
DBRX Base	사전학습 베이스 모델
DBRX Instruct	지시 따르기 미세조정 모델

라이선스 및 가격¶

항목	내용
라이선스	Databricks Open Model License
상업적 사용	허용
오픈소스	Hugging Face에서 가중치 공개

Databricks 플랫폼 가격¶

Mosaic AI Model Serving을 통한 배포
사용량 기반 과금 (Databricks 요금제에 따름)

주요 특징¶

1. Fine-grained MoE 아키텍처¶

16개 전문가 중 4개 활성화 (vs Mixtral/Grok-1: 8개 중 2개)
65배 더 많은 전문가 조합 가능
모델 품질 향상에 기여

2. 효율적인 추론¶

LLaMA2-70B 대비 2배 빠른 추론
Grok-1 대비 40% 작은 크기
최대 150 tok/s/user (Mosaic AI Model Serving)

3. 학습 효율성¶

Dense 모델 대비 2배 FLOP 효율적
MPT 모델 대비 4배 적은 컴퓨트로 동등 품질 달성
Curriculum Learning 적용

4. 강력한 코드 생성¶

HumanEval: 70.1% (CodeLLaMA-70B 67.8% 상회)
범용 모델임에도 전문 코드 모델 능가

벤치마크 성능 (DBRX Instruct)¶

오픈소스 모델 비교¶

벤치마크	DBRX	Mixtral Instruct	LLaMA2-70B	Grok-1
Open LLM Leaderboard	74.5%	72.7%	67.9%	-
MMLU (5-shot)	73.7%	71.4%	69.8%	73.0%
HumanEval (0-shot)	70.1%	54.8%	31.0%	63.2%
GSM8k (5-shot)	66.9%	61.1%	54.1%	62.9%
HellaSwag (10-shot)	89.0%	87.6%	87.3%	-
Gauntlet v0.3	66.8%	60.7%	56.4%	-

폐쇄형 모델 비교¶

벤치마크	DBRX	GPT-3.5	GPT-4	Gemini 1.0 Pro
MMLU	73.7%	70.0%	86.4%	71.8%
HumanEval	70.1%	48.1%	67.0%	67.7%
GSM8k	72.8%	57.1%	92.0%	86.5%
HellaSwag	89.0%	85.5%	95.3%	84.7%

RAG 성능¶

벤치마크	DBRX	Mixtral	GPT-3.5	GPT-4
Natural Questions	60.0%	59.1%	57.7%	63.9%
HotPotQA	55.0%	54.2%	53.0%	62.9%

장점¶

오픈소스로 상업적 사용 가능
GPT-3.5 능가, Gemini 1.0 Pro와 경쟁
MoE로 효율적인 추론 (2배 빠름)
강력한 코드 생성 능력
32K 컨텍스트 지원
Databricks 플랫폼 통합

단점¶

132B 총 파라미터로 큰 모델 크기
MoE 학습의 복잡성
GPT-4 대비 성능 격차 존재
멀티 GPU 필요
Databricks 외 배포 시 추가 설정 필요

참고자료¶

Databricks 블로그: https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
Hugging Face (Base): https://huggingface.co/databricks/dbrx-base
Hugging Face (Instruct): https://huggingface.co/databricks/dbrx-instruct
GitHub: https://github.com/databricks/dbrx
HF Space (Demo): https://huggingface.co/spaces/databricks/dbrx-instruct