콘텐츠로 이동

Eommydocs

Llama 3.2

Llama 3.2¶

개요¶

출시일: 2024년 9월 25일 (Meta Connect 2024)
개발사: Meta AI
오픈소스 특징: 최초의 멀티모달 Llama 모델. 비전 기능과 엣지/모바일 최적화 경량 모델 동시 공개

사양¶

Vision 모델 (멀티모달)¶

사이즈	파라미터	Context Length	특징
11B Vision	11B	128K	이미지+텍스트 처리, 경량 비전 모델
90B Vision	90B	128K	이미지+텍스트 처리, 고성능 비전 모델

Text-only 모델 (경량)¶

사이즈	파라미터	Context Length	특징
1B	1B	128K	엣지/모바일 최적화
3B	3B	128K	엣지/모바일 최적화

기술 상세¶

아키텍처: Transformer (auto-regressive)
어휘 크기: 128K 토큰
Attention: Grouped Query Attention (GQA)
비전 인코더: Vision Transformer 기반

라이선스¶

라이선스 유형: Llama 3.2 Community License Agreement
상업적 사용: 허용
제한 조건: 월간 활성 사용자(MAU) 7억 명 이상인 서비스의 경우 Meta로부터 별도 라이선스 필요
지역 제한: EU 지역에서 멀티모달 모델 일부 제한 (규제 이슈)

주요 특징¶

Meta 최초의 멀티모달 오픈 LLM
이미지 이해 및 분석 능력 (차트, 그래프, 캡션 생성)
객체 탐지 및 이미지 내 위치 파악
1B/3B 모델은 엣지 디바이스 및 모바일에서 실행 가능
Qualcomm, MediaTek 등 하드웨어 파트너와 최적화 협력
온디바이스 처리로 프라이버시 보호

비전 모델 기능¶

이미지 캡셔닝
차트/그래프 해석
문서 이해 (OCR 포함)
시각적 질의응답
객체 인식 및 설명

장점¶

경량 모델(1B, 3B)로 모바일/엣지 배포 가능
멀티모달 기능으로 다양한 애플리케이션 구현
온디바이스 실행으로 지연 시간 최소화
프라이버시 보호 (데이터가 기기 외부로 전송되지 않음)
하드웨어 파트너십으로 최적화된 성능

단점/한계¶

비전 모델의 경우 EU 지역 접근 제한
90B 비전 모델은 여전히 상당한 컴퓨팅 자원 필요
1B/3B 모델은 복잡한 추론 작업에 한계
비전 기능은 11B/90B 모델에만 제공
실시간 비디오 처리 미지원

다운로드/사용¶

HuggingFace¶

1B: https://huggingface.co/meta-llama/Llama-3.2-1B
3B: https://huggingface.co/meta-llama/Llama-3.2-3B
11B Vision: https://huggingface.co/meta-llama/Llama-3.2-11B-Vision
90B Vision: https://huggingface.co/meta-llama/Llama-3.2-90B-Vision

Meta 공식¶

https://www.llama.com/
https://ai.meta.com/llama/

클라우드 서비스¶

Amazon Bedrock
Azure AI
Google Cloud Vertex AI
IBM watsonx.ai
Together AI

참고 자료¶

Meta AI 공식 블로그: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
Llama 공식 문서: https://www.llama.com/docs/
GitHub: https://github.com/meta-llama/llama-models
Meta Connect 2024 발표: https://www.meta.com/connect/