Llama 3.3
개요
- 출시일: 2024년 12월 6일
- 개발사: Meta AI
- 오픈소스 특징: 오픈 웨이트 모델로 공개. Llama 3.1 405B 수준의 성능을 70B 파라미터로 구현하여 접근성 향상
사양
| 사이즈 |
파라미터 |
Context Length |
학습 토큰 |
GPU 학습 시간 |
| 70B |
70B |
128K |
- |
39.3M H100 GPU hours |
기술 상세
- 아키텍처: Transformer (auto-regressive)
- 어휘 크기: 128K 토큰
- Attention: Grouped Query Attention (GQA)
- 지원 언어: 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어
라이선스
- 라이선스 유형: Llama 3.3 Community License Agreement
- 상업적 사용: 허용
- 제한 조건: 월간 활성 사용자(MAU) 7억 명 이상인 서비스의 경우 Meta로부터 별도 라이선스 필요
- 파생 모델: Llama 3.3 명칭 사용 시 "Built with Llama" 표기 필요
주요 특징
- Llama 3.1 405B와 유사한 성능을 70B 규모로 달성
- 텍스트 전용 instruction-tuned 모델
- 128K 토큰의 긴 컨텍스트 지원
- 향상된 다국어 지원 (8개 언어)
- 개선된 instruction following 능력
- 코딩 작업에서 우수한 성능
벤치마크 성능
| 벤치마크 |
Llama 3.3 70B |
Llama 3.1 70B |
Llama 3.1 405B |
| BFCL v2 (0-shot) |
77.3 |
77.5 |
81.1 |
| NIH/Multi-Needle |
97.5 |
97.5 |
- |
장점
- 405B 수준의 성능을 70B로 달성하여 비용 효율적
- 적은 컴퓨팅 자원으로 운영 가능
- 긴 컨텍스트 처리 능력 (128K)
- 다국어 지원으로 글로벌 애플리케이션 적합
- instruction following에서 뛰어난 성능
- 탄소 중립 학습 달성
단점/한계
- 텍스트 전용 모델 (이미지/비전 미지원)
- 70B 사이즈만 제공 (소형 모델 없음)
- Tool use 성능은 405B 대비 다소 낮음
- 엣지/모바일 디바이스 배포에는 부적합
다운로드/사용
HuggingFace
- Base: https://huggingface.co/meta-llama/Llama-3.3-70B
- Instruct: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
- https://www.llama.com/
- https://ai.meta.com/llama/
클라우드 서비스
- Amazon Bedrock
- Azure AI
- Google Cloud Vertex AI
- Together AI
참고 자료
- Meta AI 공식 블로그: https://ai.meta.com/blog/
- Llama 공식 문서: https://www.llama.com/docs/
- GitHub: https://github.com/meta-llama/llama3
- 모델 카드: https://www.llama.com/docs/model-cards-and-prompt-formats/