Meta VLM¶
LLaVA 프로젝트로 오픈소스 VLM 생태계를 선도한다.
모델 목록¶
| 모델 | 출시 | 설명 |
|---|---|---|
| LLaVA | 2023.04 | 오픈소스 VLM 선구자 |
| LLaVA-NeXT | 2024.01 | 성능 개선 버전 |
LLaVA 특징¶
| 항목 | 내용 |
|---|---|
| 기반 LLM | Llama, Vicuna |
| 비전 인코더 | CLIP ViT-L/14 |
| 라이선스 | Apache 2.0 |
아키텍처: - CLIP 비전 인코더 + LLM - 단순한 Linear Projection 연결 - 2단계 학습: Pretraining + Fine-tuning
LLaVA-NeXT 개선점¶
- 해상도: 672px에서 더 높은 해상도
- 성능: GPT-4V에 근접
- 효율: 동적 해상도 처리
- 다국어: 개선된 다국어 지원