VLM 카탈로그¶

비전 언어 모델(Vision Language Model) 카탈로그. 이미지와 텍스트를 함께 처리하는 멀티모달 모델을 국가별, 기업별로 분류한다.

국가별 분류¶

국가	주요 기업	특징
미국	OpenAI, Anthropic, Google, Meta	상용 API 중심, 최고 성능
유럽	Mistral AI	오픈소스 멀티모달
중국	Alibaba, Zhipu AI	비용 효율, 다국어 지원

용도	추천 모델	이유
범용 고성능	GPT-4V, Claude 3 Vision, Gemini Vision	최고 수준 이미지 이해
문서/OCR	GPT-4V, Qwen-VL	문서 구조 파악, 테이블 추출
오픈소스	LLaVA-NeXT, PaliGemma	로컬 실행, 파인튜닝 가능
경량	Pixtral, PaliGemma	빠른 추론, 낮은 자원 요구