콘텐츠로 이동
Data Prep
상세

Meta VLM

LLaVA 프로젝트로 오픈소스 VLM 생태계를 선도한다.

모델 목록

모델 출시 설명
LLaVA 2023.04 오픈소스 VLM 선구자
LLaVA-NeXT 2024.01 성능 개선 버전

LLaVA 특징

항목 내용
기반 LLM Llama, Vicuna
비전 인코더 CLIP ViT-L/14
라이선스 Apache 2.0

아키텍처: - CLIP 비전 인코더 + LLM - 단순한 Linear Projection 연결 - 2단계 학습: Pretraining + Fine-tuning

LLaVA-NeXT 개선점

  • 해상도: 672px에서 더 높은 해상도
  • 성능: GPT-4V에 근접
  • 효율: 동적 해상도 처리
  • 다국어: 개선된 다국어 지원