콘텐츠로 이동

Qwen 2.5

개요

  • 개발사: Alibaba Cloud (알리바바 클라우드)
  • 출시일: 2024년 9월
  • 특징 요약: Qwen 시리즈의 최신 버전으로, 다양한 크기(0.5B~72B)의 모델 라인업을 제공하며 코딩, 수학, 다국어 지원에서 대폭 개선된 성능을 보임

사양

항목 내용
파라미터 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B (다양한 크기 제공)
Context Window 기본 128K tokens, 1M tokens 확장 버전 존재 (14B-Instruct-1M)
아키텍처 Transformer Decoder-only, RoPE 위치 인코딩, SwiGLU 활성화
학습 데이터 18조 토큰 이상

라이선스

  • 오픈소스 여부: Apache 2.0 (대부분 모델), 일부 대형 모델은 Qwen License
  • 상업적 사용 조건: Apache 2.0 라이선스 모델은 자유롭게 상업적 사용 가능. 72B 등 일부 모델은 월간 활성 사용자 1억 명 초과 시 별도 협의 필요

주요 특징

  • 다양한 크기의 Base 및 Instruct 모델 제공
  • 128K 기본 컨텍스트 윈도우, 최대 1M 토큰 지원 버전 출시
  • 29개 이상의 언어 지원 (영어, 중국어, 한국어, 일본어, 독일어, 프랑스어 등)
  • Qwen2.5-Coder, Qwen2.5-Math 등 특화 모델 동시 출시
  • Untied embeddings 적용으로 효율성 개선

장점

  • 동급 오픈소스 모델 대비 우수한 벤치마크 성능
  • 풍부한 모델 크기 선택지로 다양한 환경에 배포 가능
  • 긴 컨텍스트 처리 능력 (최대 1M 토큰)
  • 다국어 지원이 뛰어남
  • Apache 2.0 라이선스로 상업적 활용 용이

단점/한계

  • 72B 모델의 경우 상업적 사용 제약 존재
  • 중국어 학습 데이터 비중이 높아 일부 작업에서 중국어 편향 가능성
  • 최신 모델 대비 추론(reasoning) 능력은 제한적

참고 자료

  • GitHub: https://github.com/QwenLM/Qwen2.5
  • HuggingFace: https://huggingface.co/Qwen
  • 기술 블로그: https://qwenlm.github.io/blog/qwen2.5/
  • Ollama: https://ollama.com/library/qwen2.5