Meta VLM¶

해상도: 672px에서 더 높은 해상도
성능: GPT-4V에 근접
효율: 동적 해상도 처리
다국어: 개선된 다국어 지원

LLaVA 프로젝트로 오픈소스 VLM 생태계를 선도한다.

모델 목록¶

모델	출시	설명
LLaVA	2023.04	오픈소스 VLM 선구자
LLaVA-NeXT	2024.01	성능 개선 버전

아키텍처: - CLIP 비전 인코더 + LLM - 단순한 Linear Projection 연결 - 2단계 학습: Pretraining + Fine-tuning