미국 VLM
미국은 VLM 분야에서도 선두를 달리고 있다. GPT-4V, Claude 3 Vision 등 상용 API와 LLaVA 같은 오픈소스 모델이 공존한다.
시장 현황
- OpenAI GPT-4V가 상용 VLM 시장 개척
- Google Gemini는 네이티브 멀티모달로 설계
- Meta의 LLaVA 시리즈가 오픈소스 VLM 생태계 주도
기업 목록
| 기업 |
대표 모델 |
특징 |
| OpenAI |
GPT-4V |
최초의 상용 고성능 VLM |
| Anthropic |
Claude 3 Vision |
문서 이해에 강점 |
| Google |
Gemini Vision, PaliGemma |
네이티브 멀티모달 |
| Meta |
LLaVA, LLaVA-NeXT |
오픈소스 VLM 선도 |
모델 비교
| 모델 |
출시 |
이미지 해상도 |
주요 용도 |
| GPT-4V |
2023.09 |
최대 2048px |
범용 이미지 분석 |
| Claude 3 Vision |
2024.03 |
최대 1568px |
문서, 차트 분석 |
| Gemini Vision |
2023.12 |
가변 |
동영상 포함 멀티모달 |
| PaliGemma |
2024.05 |
224-896px |
경량 오픈소스 |
| LLaVA-NeXT |
2024.01 |
최대 672px |
연구용 오픈소스 |