Llama 3.2
개요
- 출시일: 2024년 9월 25일 (Meta Connect 2024)
- 개발사: Meta AI
- 오픈소스 특징: 최초의 멀티모달 Llama 모델. 비전 기능과 엣지/모바일 최적화 경량 모델 동시 공개
사양
Vision 모델 (멀티모달)
| 사이즈 |
파라미터 |
Context Length |
특징 |
| 11B Vision |
11B |
128K |
이미지+텍스트 처리, 경량 비전 모델 |
| 90B Vision |
90B |
128K |
이미지+텍스트 처리, 고성능 비전 모델 |
Text-only 모델 (경량)
| 사이즈 |
파라미터 |
Context Length |
특징 |
| 1B |
1B |
128K |
엣지/모바일 최적화 |
| 3B |
3B |
128K |
엣지/모바일 최적화 |
기술 상세
- 아키텍처: Transformer (auto-regressive)
- 어휘 크기: 128K 토큰
- Attention: Grouped Query Attention (GQA)
- 비전 인코더: Vision Transformer 기반
라이선스
- 라이선스 유형: Llama 3.2 Community License Agreement
- 상업적 사용: 허용
- 제한 조건: 월간 활성 사용자(MAU) 7억 명 이상인 서비스의 경우 Meta로부터 별도 라이선스 필요
- 지역 제한: EU 지역에서 멀티모달 모델 일부 제한 (규제 이슈)
주요 특징
- Meta 최초의 멀티모달 오픈 LLM
- 이미지 이해 및 분석 능력 (차트, 그래프, 캡션 생성)
- 객체 탐지 및 이미지 내 위치 파악
- 1B/3B 모델은 엣지 디바이스 및 모바일에서 실행 가능
- Qualcomm, MediaTek 등 하드웨어 파트너와 최적화 협력
- 온디바이스 처리로 프라이버시 보호
비전 모델 기능
- 이미지 캡셔닝
- 차트/그래프 해석
- 문서 이해 (OCR 포함)
- 시각적 질의응답
- 객체 인식 및 설명
장점
- 경량 모델(1B, 3B)로 모바일/엣지 배포 가능
- 멀티모달 기능으로 다양한 애플리케이션 구현
- 온디바이스 실행으로 지연 시간 최소화
- 프라이버시 보호 (데이터가 기기 외부로 전송되지 않음)
- 하드웨어 파트너십으로 최적화된 성능
단점/한계
- 비전 모델의 경우 EU 지역 접근 제한
- 90B 비전 모델은 여전히 상당한 컴퓨팅 자원 필요
- 1B/3B 모델은 복잡한 추론 작업에 한계
- 비전 기능은 11B/90B 모델에만 제공
- 실시간 비디오 처리 미지원
다운로드/사용
HuggingFace
- 1B: https://huggingface.co/meta-llama/Llama-3.2-1B
- 3B: https://huggingface.co/meta-llama/Llama-3.2-3B
- 11B Vision: https://huggingface.co/meta-llama/Llama-3.2-11B-Vision
- 90B Vision: https://huggingface.co/meta-llama/Llama-3.2-90B-Vision
- https://www.llama.com/
- https://ai.meta.com/llama/
클라우드 서비스
- Amazon Bedrock
- Azure AI
- Google Cloud Vertex AI
- IBM watsonx.ai
- Together AI
참고 자료
- Meta AI 공식 블로그: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
- Llama 공식 문서: https://www.llama.com/docs/
- GitHub: https://github.com/meta-llama/llama-models
- Meta Connect 2024 발표: https://www.meta.com/connect/