중국 VLM¶
중국은 Alibaba의 Qwen-VL과 Zhipu AI의 CogVLM으로 VLM 시장에 참여하고 있다. 비용 효율성과 중국어 문서 처리에 강점을 보인다.
시장 현황¶
- Qwen-VL이 다국어 VLM으로 글로벌 경쟁
- CogVLM이 오픈소스 VLM 연구 선도
- 중국어 OCR, 문서 이해에 특화
기업 목록¶
| 기업 | 대표 모델 | 특징 |
|---|---|---|
| Alibaba | Qwen-VL | 다국어, 고해상도 지원 |
| Zhipu AI | CogVLM | 오픈소스 연구 모델 |
모델 비교¶
| 모델 | 파라미터 | 이미지 해상도 | 라이선스 |
|---|---|---|---|
| Qwen-VL | 9.6B | 최대 448px | Tongyi Qianwen |
| Qwen-VL-Plus | API | 고해상도 | 상용 API |
| CogVLM | 17B | 490px | Apache 2.0 |
주요 특징¶
Qwen-VL 시리즈¶
- 중국어/영어 이미지 텍스트 인식 우수
- Grounding(객체 위치 지정) 기능 내장
- 여러 이미지 동시 처리 가능
CogVLM¶
- Tsinghua 대학과 협력 개발
- 10B 규모 비전 인코더로 세밀한 이미지 이해
- Visual Expert 모듈로 효율적 학습