콘텐츠로 이동

DeepSeek-V2

개요

  • 개발사: DeepSeek (중국 AI 스타트업)
  • 출시일: 2024년 5월
  • 특징 요약: 혁신적인 MLA (Multi-head Latent Attention) 아키텍처를 도입한 236B 파라미터 MoE 모델

사양

항목 내용
파라미터 총 236B (토큰당 21B 활성화)
Context Window 128K tokens
아키텍처 Mixture of Experts (MoE), Multi-head Latent Attention (MLA)
학습 데이터 8.1조 토큰
전문가 구성 160개 라우팅 전문가 + 2개 공유 전문가

라이선스

  • 오픈소스 여부: DeepSeek License (오픈소스)
  • 상업적 사용 조건: 상업적 사용 허용, 일부 제한 조건 존재

주요 특징

  • MLA (Multi-head Latent Attention): 기존 MHA 대비 KV 캐시를 93% 이상 압축
  • DeepSeekMoE 아키텍처: 세밀한 전문가 분할 및 공유 전문가 격리
  • Device-Limited Routing: 전문가 병렬화 시 통신 비용 최소화
  • YaRN 기반 컨텍스트 확장으로 128K 지원
  • GPT-4 Turbo와 비교 가능한 성능

장점

  • 혁신적인 MLA로 추론 시 메모리 효율성 대폭 개선
  • 동급 Dense 모델 대비 5~10배 빠른 추론 속도
  • 오픈소스로 연구 및 상업적 활용 가능
  • API 서비스 가격이 매우 저렴

단점/한계

  • DeepSeek-V3 출시로 구버전이 됨
  • 복잡한 MoE 아키텍처로 커스터마이징 어려움
  • 중국어 편향 존재 가능성
  • 일부 안전성 가이드라인 관련 이슈

참고 자료

  • GitHub: https://github.com/deepseek-ai/DeepSeek-V2
  • HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V2
  • 논문: https://arxiv.org/abs/2405.04434
  • 공식 웹사이트: https://www.deepseek.com/