DeepSeek-Coder¶
개요¶
- 개발사: DeepSeek (중국 AI 스타트업)
- 출시일: 2023년 11월 (V1), 2024년 6월 (V2)
- 특징 요약: 코드 생성 및 프로그래밍 작업에 특화된 DeepSeek의 코딩 전문 모델 시리즈
사양¶
| 항목 | 내용 |
|---|---|
| 파라미터 | V1: 1.3B, 6.7B, 33B / V2: 16B, 236B (MoE) |
| Context Window | 16K tokens (V1), 128K tokens (V2) |
| 아키텍처 | Transformer Decoder-only (V1), MoE + MLA (V2) |
| 학습 데이터 | 2조 토큰 (87% 코드, 13% 자연어) |
라이선스¶
- 오픈소스 여부: DeepSeek License (오픈소스)
- 상업적 사용 조건: 상업적 사용 허용
주요 특징¶
- 87개 이상의 프로그래밍 언어 지원
- Fill-in-the-Middle (FIM) 기능으로 코드 완성 최적화
- Repository-level 코드 이해 및 생성 능력
- DeepSeek-Coder-V2는 MoE 아키텍처 적용으로 효율성 향상
- Code Instruction Tuning으로 코딩 지시 수행 능력 강화
장점¶
- HumanEval, MBPP 등 코드 벤치마크에서 GPT-4급 성능
- 오픈소스로 자유로운 연구 및 상업적 활용
- 다양한 크기로 유연한 배포 가능
- V2의 경우 128K 컨텍스트로 대규모 코드베이스 처리 가능
- 비교적 가벼운 모델 (1.3B)도 제공하여 로컬 실행 용이
단점/한계¶
- 일반적인 대화 능력은 범용 모델 대비 부족
- V1의 경우 컨텍스트 길이 제한 (16K)
- 최신 프레임워크나 라이브러리 지식은 학습 시점으로 제한
- 복잡한 시스템 설계 작업에서는 한계
참고 자료¶
- GitHub: https://github.com/deepseek-ai/DeepSeek-Coder
- HuggingFace: https://huggingface.co/deepseek-ai/deepseek-coder-33b-instruct
- 논문: https://arxiv.org/abs/2401.14196
- DeepSeek-Coder-V2: https://arxiv.org/abs/2406.11931