콘텐츠로 이동

Eommydocs

DeepSeek Coder

DeepSeek-Coder¶

개요¶

개발사: DeepSeek (중국 AI 스타트업)
출시일: 2023년 11월 (V1), 2024년 6월 (V2)
특징 요약: 코드 생성 및 프로그래밍 작업에 특화된 DeepSeek의 코딩 전문 모델 시리즈

사양¶

항목	내용
파라미터	V1: 1.3B, 6.7B, 33B / V2: 16B, 236B (MoE)
Context Window	16K tokens (V1), 128K tokens (V2)
아키텍처	Transformer Decoder-only (V1), MoE + MLA (V2)
학습 데이터	2조 토큰 (87% 코드, 13% 자연어)

라이선스¶

오픈소스 여부: DeepSeek License (오픈소스)
상업적 사용 조건: 상업적 사용 허용

주요 특징¶

87개 이상의 프로그래밍 언어 지원
Fill-in-the-Middle (FIM) 기능으로 코드 완성 최적화
Repository-level 코드 이해 및 생성 능력
DeepSeek-Coder-V2는 MoE 아키텍처 적용으로 효율성 향상
Code Instruction Tuning으로 코딩 지시 수행 능력 강화

장점¶

HumanEval, MBPP 등 코드 벤치마크에서 GPT-4급 성능
오픈소스로 자유로운 연구 및 상업적 활용
다양한 크기로 유연한 배포 가능
V2의 경우 128K 컨텍스트로 대규모 코드베이스 처리 가능
비교적 가벼운 모델 (1.3B)도 제공하여 로컬 실행 용이

단점/한계¶

일반적인 대화 능력은 범용 모델 대비 부족
V1의 경우 컨텍스트 길이 제한 (16K)
최신 프레임워크나 라이브러리 지식은 학습 시점으로 제한
복잡한 시스템 설계 작업에서는 한계

참고 자료¶

GitHub: https://github.com/deepseek-ai/DeepSeek-Coder
HuggingFace: https://huggingface.co/deepseek-ai/deepseek-coder-33b-instruct
논문: https://arxiv.org/abs/2401.14196
DeepSeek-Coder-V2: https://arxiv.org/abs/2406.11931