콘텐츠로 이동

Llama 3.2

개요

  • 출시일: 2024년 9월 25일 (Meta Connect 2024)
  • 개발사: Meta AI
  • 오픈소스 특징: 최초의 멀티모달 Llama 모델. 비전 기능과 엣지/모바일 최적화 경량 모델 동시 공개

사양

Vision 모델 (멀티모달)

사이즈 파라미터 Context Length 특징
11B Vision 11B 128K 이미지+텍스트 처리, 경량 비전 모델
90B Vision 90B 128K 이미지+텍스트 처리, 고성능 비전 모델

Text-only 모델 (경량)

사이즈 파라미터 Context Length 특징
1B 1B 128K 엣지/모바일 최적화
3B 3B 128K 엣지/모바일 최적화

기술 상세

  • 아키텍처: Transformer (auto-regressive)
  • 어휘 크기: 128K 토큰
  • Attention: Grouped Query Attention (GQA)
  • 비전 인코더: Vision Transformer 기반

라이선스

  • 라이선스 유형: Llama 3.2 Community License Agreement
  • 상업적 사용: 허용
  • 제한 조건: 월간 활성 사용자(MAU) 7억 명 이상인 서비스의 경우 Meta로부터 별도 라이선스 필요
  • 지역 제한: EU 지역에서 멀티모달 모델 일부 제한 (규제 이슈)

주요 특징

  • Meta 최초의 멀티모달 오픈 LLM
  • 이미지 이해 및 분석 능력 (차트, 그래프, 캡션 생성)
  • 객체 탐지 및 이미지 내 위치 파악
  • 1B/3B 모델은 엣지 디바이스 및 모바일에서 실행 가능
  • Qualcomm, MediaTek 등 하드웨어 파트너와 최적화 협력
  • 온디바이스 처리로 프라이버시 보호

비전 모델 기능

  • 이미지 캡셔닝
  • 차트/그래프 해석
  • 문서 이해 (OCR 포함)
  • 시각적 질의응답
  • 객체 인식 및 설명

장점

  • 경량 모델(1B, 3B)로 모바일/엣지 배포 가능
  • 멀티모달 기능으로 다양한 애플리케이션 구현
  • 온디바이스 실행으로 지연 시간 최소화
  • 프라이버시 보호 (데이터가 기기 외부로 전송되지 않음)
  • 하드웨어 파트너십으로 최적화된 성능

단점/한계

  • 비전 모델의 경우 EU 지역 접근 제한
  • 90B 비전 모델은 여전히 상당한 컴퓨팅 자원 필요
  • 1B/3B 모델은 복잡한 추론 작업에 한계
  • 비전 기능은 11B/90B 모델에만 제공
  • 실시간 비디오 처리 미지원

다운로드/사용

HuggingFace

  • 1B: https://huggingface.co/meta-llama/Llama-3.2-1B
  • 3B: https://huggingface.co/meta-llama/Llama-3.2-3B
  • 11B Vision: https://huggingface.co/meta-llama/Llama-3.2-11B-Vision
  • 90B Vision: https://huggingface.co/meta-llama/Llama-3.2-90B-Vision

Meta 공식

  • https://www.llama.com/
  • https://ai.meta.com/llama/

클라우드 서비스

  • Amazon Bedrock
  • Azure AI
  • Google Cloud Vertex AI
  • IBM watsonx.ai
  • Together AI

참고 자료

  • Meta AI 공식 블로그: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
  • Llama 공식 문서: https://www.llama.com/docs/
  • GitHub: https://github.com/meta-llama/llama-models
  • Meta Connect 2024 발표: https://www.meta.com/connect/