Google VLM¶
Gemini는 네이티브 멀티모달로 설계되었다. 오픈소스 PaliGemma도 제공한다.
모델 목록¶
| 모델 | 출시 | 설명 |
|---|---|---|
| Gemini Vision | 2023.12 | 네이티브 멀티모달 |
| PaliGemma | 2024.05 | 오픈소스 VLM |
Gemini Vision 특징¶
| 항목 | 내용 |
|---|---|
| 멀티모달 | 이미지, 오디오, 비디오 |
| 컨텍스트 | 1M 토큰 |
| 비디오 | 최대 1시간 분석 가능 |
차별점: - 처음부터 멀티모달로 설계 (네이티브) - 비디오 이해 능력 우수 - Google 검색/제품 통합
PaliGemma 특징¶
| 항목 | 내용 |
|---|---|
| 파라미터 | 3B |
| 해상도 | 224px / 448px / 896px |
| 라이선스 | 오픈소스 |
용도: - 이미지 캡셔닝 - 시각적 질의응답 - 객체 탐지