콘텐츠로 이동

Baichuan 2

개요

  • 개발사: Baichuan Inc. (百川智能, 왕샤오촨 설립 - 전 Sogou CEO)
  • 출시일: 2023년 9월
  • 특징 요약: 중국어에 특화된 대규모 언어 모델로, 7B와 13B 두 가지 크기로 제공되며 중국어 벤치마크에서 최상위 성능을 기록

사양

항목 내용
파라미터 7B, 13B
Context Window 4K tokens
아키텍처 Transformer Decoder-only, RoPE, RMSNorm, SwiGLU
학습 데이터 2.6조 토큰
어휘 크기 125,696 토큰

라이선스

  • 오픈소스 여부: Baichuan License (오픈소스)
  • 상업적 사용 조건: 연구 목적 무료, 상업적 사용 시 별도 협의 필요

주요 특징

  • 중국어 처리에 최적화된 토크나이저 (125,696 어휘)
  • NormHead: 출력 임베딩 정규화로 학습 안정성 향상
  • Max-z Loss: 로짓 값 안정화를 위한 추가 손실 함수
  • 영어와 중국어 균형 잡힌 이중 언어 능력
  • Chat 버전에서 RLHF (인간 피드백 강화학습) 적용

장점

  • 중국어 벤치마크에서 최상위 성능
  • 비교적 작은 크기(7B, 13B)로 효율적인 배포 가능
  • 중국어 토큰 효율성이 뛰어남
  • RLHF로 안전하고 유용한 응답 생성
  • 중국 내 규제 준수 (안전 정렬)

단점/한계

  • 영어 성능은 Llama 2 등 영어 중심 모델 대비 낮음
  • 컨텍스트 길이가 4K로 제한적
  • 상업적 사용 시 별도 라이선스 협의 필요
  • 최신 모델들 대비 구버전
  • 중국어 학습 데이터 비중이 높아 다국어 지원 제한적
  • 중국 정부 정책에 맞춘 응답 생성 경향

참고 자료

  • GitHub: https://github.com/baichuan-inc/Baichuan2
  • HuggingFace: https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat
  • 논문: https://arxiv.org/abs/2309.10305
  • 공식 웹사이트: https://www.baichuan-ai.com/