DeepSeek-R1¶
개요¶
- 개발사: DeepSeek (중국 AI 스타트업)
- 출시일: 2025년 1월
- 특징 요약: OpenAI o1에 필적하는 추론(reasoning) 능력을 갖춘 오픈소스 추론 특화 모델
사양¶
| 항목 | 내용 |
|---|---|
| 파라미터 | 총 671B (토큰당 37B 활성화) - DeepSeek-V3 기반 |
| Context Window | 128K tokens |
| 아키텍처 | MoE + MLA, Chain-of-Thought 강화 |
| 학습 방법 | 순수 강화학습 (RL) 기반 추론 능력 획득 |
라이선스¶
- 오픈소스 여부: MIT License
- 상업적 사용 조건: 완전한 상업적 사용 허용
주요 특징¶
- 순수 강화학습만으로 추론 능력 획득 (SFT 없이)
- Chain-of-Thought 추론 과정을 자연스럽게 학습
- 수학, 코딩, 논리적 추론에서 OpenAI o1과 동급 성능
- R1-Zero: 순수 RL로만 학습한 실험적 모델도 공개
- Distilled 버전 (1.5B, 7B, 8B, 14B, 32B, 70B) 제공
장점¶
- OpenAI o1-preview와 동급의 추론 성능
- 완전 오픈소스 (MIT 라이선스)
- 추론 과정을 투명하게 확인 가능
- 다양한 크기의 Distilled 버전으로 유연한 배포
- 학문적으로 중요한 RL 기반 추론 학습 방법론 공개
단점/한계¶
- 추론 과정이 길어 응답 시간이 오래 걸림
- 토큰 사용량이 많아 API 비용 증가 가능
- 간단한 질문에도 불필요하게 긴 추론 수행 가능
- 중국어 편향 및 일부 정치적 민감 주제에 대한 제한
- 환각(hallucination) 발생 가능성 존재
참고 자료¶
- GitHub: https://github.com/deepseek-ai/DeepSeek-R1
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-R1
- 논문: https://arxiv.org/abs/2501.12948
- 공식 웹사이트: https://www.deepseek.com/