VLM 카탈로그
비전 언어 모델(Vision Language Model) 카탈로그. 이미지와 텍스트를 함께 처리하는 멀티모달 모델을 국가별, 기업별로 분류한다.
국가별 분류
| 국가 |
주요 기업 |
특징 |
| 미국 |
OpenAI, Anthropic, Google, Meta |
상용 API 중심, 최고 성능 |
| 유럽 |
Mistral AI |
오픈소스 멀티모달 |
| 중국 |
Alibaba, Zhipu AI |
비용 효율, 다국어 지원 |
가이드
| 가이드 |
설명 |
| 상황별 추천 |
문서 분석, OCR, 의료 영상 등 용도별 모델 선택 |
| 하드웨어별 추천 |
GPU 메모리, 추론 속도 기준 모델 선택 |
| 아키텍처 설명 |
VLM 구조, 이미지 인코딩, 토큰 퓨전 방식 |
모델 수 현황
| 국가 |
기업 수 |
모델 수 |
| 미국 |
4 |
6 |
| 유럽 |
1 |
1 |
| 중국 |
2 |
2 |
| 합계 |
7 |
9 |
모델 선택 가이드
| 용도 |
추천 모델 |
이유 |
| 범용 고성능 |
GPT-4V, Claude 3 Vision, Gemini Vision |
최고 수준 이미지 이해 |
| 문서/OCR |
GPT-4V, Qwen-VL |
문서 구조 파악, 테이블 추출 |
| 오픈소스 |
LLaVA-NeXT, PaliGemma |
로컬 실행, 파인튜닝 가능 |
| 경량 |
Pixtral, PaliGemma |
빠른 추론, 낮은 자원 요구 |