콘텐츠로 이동
Data Prep
상세

미국 VLM

미국은 VLM 분야에서도 선두를 달리고 있다. GPT-4V, Claude 3 Vision 등 상용 API와 LLaVA 같은 오픈소스 모델이 공존한다.

시장 현황

  • OpenAI GPT-4V가 상용 VLM 시장 개척
  • Google Gemini는 네이티브 멀티모달로 설계
  • Meta의 LLaVA 시리즈가 오픈소스 VLM 생태계 주도

기업 목록

기업 대표 모델 특징
OpenAI GPT-4V 최초의 상용 고성능 VLM
Anthropic Claude 3 Vision 문서 이해에 강점
Google Gemini Vision, PaliGemma 네이티브 멀티모달
Meta LLaVA, LLaVA-NeXT 오픈소스 VLM 선도

모델 비교

모델 출시 이미지 해상도 주요 용도
GPT-4V 2023.09 최대 2048px 범용 이미지 분석
Claude 3 Vision 2024.03 최대 1568px 문서, 차트 분석
Gemini Vision 2023.12 가변 동영상 포함 멀티모달
PaliGemma 2024.05 224-896px 경량 오픈소스
LLaVA-NeXT 2024.01 최대 672px 연구용 오픈소스