미국 VLM¶

미국은 VLM 분야에서도 선두를 달리고 있다. GPT-4V, Claude 3 Vision 등 상용 API와 LLaVA 같은 오픈소스 모델이 공존한다.

시장 현황¶

모델	출시	이미지 해상도	주요 용도
GPT-4V	2023.09	최대 2048px	범용 이미지 분석
Claude 3 Vision	2024.03	최대 1568px	문서, 차트 분석
Gemini Vision	2023.12	가변	동영상 포함 멀티모달
PaliGemma	2024.05	224-896px	경량 오픈소스
LLaVA-NeXT	2024.01	최대 672px	연구용 오픈소스