콘텐츠로 이동
Data Prep
상세

Google VLM

Gemini는 네이티브 멀티모달로 설계되었다. 오픈소스 PaliGemma도 제공한다.

모델 목록

모델 출시 설명
Gemini Vision 2023.12 네이티브 멀티모달
PaliGemma 2024.05 오픈소스 VLM

Gemini Vision 특징

항목 내용
멀티모달 이미지, 오디오, 비디오
컨텍스트 1M 토큰
비디오 최대 1시간 분석 가능

차별점: - 처음부터 멀티모달로 설계 (네이티브) - 비디오 이해 능력 우수 - Google 검색/제품 통합

PaliGemma 특징

항목 내용
파라미터 3B
해상도 224px / 448px / 896px
라이선스 오픈소스

용도: - 이미지 캡셔닝 - 시각적 질의응답 - 객체 탐지