콘텐츠로 이동

Qwen 2

개요

  • 개발사: Alibaba Cloud (알리바바 클라우드)
  • 출시일: 2024년 6월
  • 특징 요약: Qwen 1.5의 후속 모델로, 다국어 지원 강화 및 코딩/수학 능력이 크게 향상된 차세대 Qwen 시리즈

사양

항목 내용
파라미터 0.5B, 1.5B, 7B, 57B-A14B (MoE), 72B
Context Window 기본 32K tokens, 128K tokens 확장 버전
아키텍처 Transformer Decoder-only, GQA (Grouped Query Attention), RoPE
학습 데이터 7조 토큰 이상

라이선스

  • 오픈소스 여부: Apache 2.0 (소형 모델), Qwen License (대형 모델)
  • 상업적 사용 조건: 0.5B~7B 모델은 Apache 2.0으로 자유롭게 상업적 사용 가능. 72B 모델은 별도 라이선스 적용

주요 특징

  • GQA(Grouped Query Attention) 도입으로 추론 효율성 개선
  • 27개 이상의 언어 지원
  • 57B-A14B MoE (Mixture of Experts) 모델 도입으로 효율적인 대규모 모델 운영
  • 긴 컨텍스트 이해 능력 강화 (YARN 기법 적용)
  • 코드 및 수학 벤치마크에서 경쟁 모델 대비 우수한 성능

장점

  • Llama 3, GPT-4 등과 비교해도 경쟁력 있는 성능
  • 다양한 크기의 모델로 유연한 배포 가능
  • MoE 아키텍처로 추론 비용 절감
  • 오픈소스로 공개되어 연구 및 커스터마이징 용이

단점/한계

  • Qwen 2.5 출시로 구버전이 됨
  • 72B 모델은 상업적 사용 시 라이선스 확인 필요
  • 중국어 학습 데이터 비중으로 인한 잠재적 편향
  • 일부 안전성 관련 이슈 보고됨

참고 자료

  • GitHub: https://github.com/QwenLM/Qwen2
  • HuggingFace: https://huggingface.co/Qwen
  • 기술 블로그: https://qwenlm.github.io/blog/qwen2/
  • 논문: https://arxiv.org/abs/2407.10671