Gemini Vision (Gemini 1.5 Pro / Flash)
1. 개요
| 항목 |
내용 |
| 개발사 |
Google DeepMind |
| 공개일 |
Gemini 1.0: 2023.12, Gemini 1.5: 2024.02 |
| 모델 타입 |
Proprietary (Closed Source) |
| 접근 방식 |
API (Vertex AI, AI Studio), Gemini App |
Gemini는 Google의 네이티브 멀티모달 모델로, 텍스트, 이미지, 오디오, 비디오를 단일 모델에서 처리한다. Gemini 1.5는 최대 2M 토큰의 컨텍스트를 지원하며, 비디오 네이티브 처리가 가능하다.
2. 모델 패밀리
| 모델 |
특징 |
컨텍스트 |
| Gemini 1.5 Pro |
최고 성능, 장문 컨텍스트 |
2M 토큰 |
| Gemini 1.5 Flash |
빠른 응답, 비용 효율 |
1M 토큰 |
| Gemini 1.5 Flash-8B |
경량화 |
1M 토큰 |
| Gemini 1.0 Ultra |
이전 세대 최고 성능 |
32K 토큰 |
| Gemini 1.0 Pro |
이전 세대 균형 |
32K 토큰 |
2. 아키텍처
2.1 핵심 구조
Gemini는 처음부터 멀티모달을 위해 설계된 네이티브 멀티모달 모델이다.
[이미지/비디오/오디오/텍스트] --> [통합 토크나이저]
|
v
[Sparse MoE Transformer]
|
v
[출력 생성]
2.2 핵심 컴포넌트
| 컴포넌트 |
사양 |
| 아키텍처 |
Sparse Mixture of Experts (MoE) |
| Vision 처리 |
네이티브 (별도 인코더 없음) |
| 컨텍스트 |
최대 2M 토큰 (10M 내부 테스트) |
| 모달리티 |
텍스트, 이미지, 오디오, 비디오 |
2.3 Sparse MoE 특징
- 전체 파라미터 중 일부만 활성화
- 추론 효율성 향상
- 전문가 네트워크의 조합으로 다양한 태스크 처리
3. 이미지/비디오 처리
3.1 이미지 해상도
| 항목 |
사양 |
| 최대 해상도 |
제한 없음 (토큰 변환) |
| 토큰 계산 |
258 토큰/이미지 (기본) |
| 지원 포맷 |
PNG, JPEG, GIF, WebP |
| 최대 이미지 크기 |
20MB |
3.2 비디오 처리 (네이티브)
| 항목 |
사양 |
| 최대 길이 |
~1시간 (토큰 제한 내) |
| 프레임 추출 |
1 FPS 기본 |
| 토큰 계산 |
~258 토큰/프레임 |
| 지원 포맷 |
MP4, MOV, AVI, MKV 등 |
| 오디오 처리 |
동시 처리 가능 |
3.3 멀티 이미지 처리
| 항목 |
지원 |
| 2M 컨텍스트 기준 |
3,600+ 이미지 |
| 이미지 간 추론 |
지원 |
| 시계열 분석 |
지원 |
4. 벤치마크 성능
4.1 Gemini 1.5 Pro (2024)
| 벤치마크 |
점수 |
비고 |
| MMMU (val) |
62.2% |
- |
| MathVista |
63.9% |
- |
| AI2D |
80.3% |
- |
| ChartQA |
87.2% |
- |
| DocVQA |
93.1% |
- |
| TextVQA |
78.7% |
- |
| VQAv2 |
80.2% |
- |
4.2 Gemini 1.5 Flash
| 벤치마크 |
점수 |
비고 |
| MMMU |
56.1% |
1.0 Ultra 능가 |
| DocVQA |
89.9% |
- |
| TextVQA |
78.4% |
- |
4.3 비디오 이해 벤치마크
| 벤치마크 |
Gemini 1.5 Pro |
비고 |
| VATEX |
62.7% |
비디오 캡셔닝 |
| YouCook2 |
52.3% |
요리 비디오 |
| ActivityNet |
56.2% |
활동 인식 |
5. API 사용
5.1 가격 (2024.12 기준, 128K 이하)
| 모델 |
입력 (1M 토큰) |
출력 (1M 토큰) |
| Gemini 1.5 Pro |
$1.25 |
$5.00 |
| Gemini 1.5 Flash |
$0.075 |
$0.30 |
| Gemini 1.5 Flash-8B |
$0.0375 |
$0.15 |
128K 초과 시 2배 가격 적용.
5.2 API 예시 (Google AI Studio)
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
# 이미지 분석
model = genai.GenerativeModel("gemini-1.5-pro")
image = genai.upload_file("image.jpg")
response = model.generate_content([
image,
"이 이미지를 자세히 설명해주세요."
])
print(response.text)
5.3 비디오 분석
import google.generativeai as genai
model = genai.GenerativeModel("gemini-1.5-pro")
# 비디오 업로드
video = genai.upload_file("video.mp4")
# 업로드 완료 대기
import time
while video.state.name == "PROCESSING":
time.sleep(5)
video = genai.get_file(video.name)
response = model.generate_content([
video,
"이 비디오의 주요 내용을 요약해주세요."
])
5.4 멀티 이미지 분석
images = [
genai.upload_file("image1.jpg"),
genai.upload_file("image2.jpg"),
genai.upload_file("image3.jpg")
]
response = model.generate_content([
*images,
"이 세 이미지의 공통점과 차이점을 분석해주세요."
])
5.5 Vertex AI 사용
import vertexai
from vertexai.generative_models import GenerativeModel, Part
vertexai.init(project="your-project", location="us-central1")
model = GenerativeModel("gemini-1.5-pro")
image = Part.from_uri(
uri="gs://bucket/image.jpg",
mime_type="image/jpeg"
)
response = model.generate_content([image, "Describe this image."])
6. 장점
| 장점 |
설명 |
| 네이티브 비디오 |
직접 비디오 처리, 최대 1시간 |
| 초장문 컨텍스트 |
2M 토큰 (3600+ 이미지) |
| 비용 효율 |
Flash 모델 매우 저렴 |
| 멀티모달 통합 |
오디오 동시 처리 |
| 빠른 응답 |
Flash 모델 저지연 |
| 다국어 |
광범위한 언어 지원 |
7. 단점
| 단점 |
설명 |
| 환각 |
비디오에서 세부 사항 오류 |
| 폐쇄형 |
모델 가중치 비공개 |
| 복잡한 추론 |
GPT-4/Claude 대비 약간 약함 |
| 지역 제한 |
일부 지역 서비스 불가 |
| 가격 변동 |
컨텍스트 길이에 따라 2배 |
8. 사용 사례
8.1 적합한 사용 사례
- 비디오 분석 및 요약
- 대용량 문서 처리 (수백 페이지)
- 멀티 이미지 시계열 분석
- 비디오 컨텐츠 모더레이션
- 회의 녹화 분석
- 교육 비디오 분석
8.2 부적합한 사용 사례
- 고정밀 OCR (Claude 권장)
- 복잡한 논리 추론 (GPT-4 권장)
- 오프라인 환경
9. 제한사항
9.1 콘텐츠 정책
- 유해 콘텐츠 필터링
- 개인 식별 정보 보호
- 의료/법률 조언 제한
9.2 기술적 제한
| 항목 |
제한 |
| 파일 크기 |
20MB (이미지), 2GB (비디오) |
| 비디오 길이 |
~1시간 (토큰 제한) |
| 요청 제한 |
분당 60회 (Free tier) |
| 오디오 길이 |
9.5시간 |
10. Gemini 2.0 (2024.12)
10.1 새로운 기능
- 네이티브 이미지 생성
- 네이티브 TTS
- 네이티브 도구 사용
- 에이전트 기능 강화
10.2 Gemini 2.0 Flash
| 특징 |
사양 |
| 성능 |
1.5 Pro 수준 |
| 속도 |
2배 빠름 |
| 멀티모달 출력 |
이미지, 오디오 생성 |
11. 버전 히스토리
| 버전 |
출시일 |
주요 변경 |
| Gemini 1.0 |
2023.12 |
첫 공개 |
| Gemini 1.0 Ultra |
2024.02 |
최고 성능 버전 |
| Gemini 1.5 Pro |
2024.02 |
1M 컨텍스트 |
| Gemini 1.5 Pro (2M) |
2024.05 |
2M 컨텍스트 확장 |
| Gemini 1.5 Flash |
2024.05 |
경량화 버전 |
| Gemini 2.0 Flash |
2024.12 |
멀티모달 출력 |
12. 참고 자료