콘텐츠로 이동
Data Prep
상세

VLM 카탈로그

비전 언어 모델(Vision Language Model) 카탈로그. 이미지와 텍스트를 함께 처리하는 멀티모달 모델을 국가별, 기업별로 분류한다.

국가별 분류

국가 주요 기업 특징
미국 OpenAI, Anthropic, Google, Meta 상용 API 중심, 최고 성능
유럽 Mistral AI 오픈소스 멀티모달
중국 Alibaba, Zhipu AI 비용 효율, 다국어 지원

가이드

가이드 설명
상황별 추천 문서 분석, OCR, 의료 영상 등 용도별 모델 선택
하드웨어별 추천 GPU 메모리, 추론 속도 기준 모델 선택
아키텍처 설명 VLM 구조, 이미지 인코딩, 토큰 퓨전 방식

모델 수 현황

국가 기업 수 모델 수
미국 4 6
유럽 1 1
중국 2 2
합계 7 9

모델 선택 가이드

용도 추천 모델 이유
범용 고성능 GPT-4V, Claude 3 Vision, Gemini Vision 최고 수준 이미지 이해
문서/OCR GPT-4V, Qwen-VL 문서 구조 파악, 테이블 추출
오픈소스 LLaVA-NeXT, PaliGemma 로컬 실행, 파인튜닝 가능
경량 Pixtral, PaliGemma 빠른 추론, 낮은 자원 요구