Gemini Vision (Gemini 1.5 Pro / Flash)¶

1. 개요¶

항목	내용
개발사	Google DeepMind
공개일	Gemini 1.0: 2023.12, Gemini 1.5: 2024.02
모델 타입	Proprietary (Closed Source)
접근 방식	API (Vertex AI, AI Studio), Gemini App

Gemini는 Google의 네이티브 멀티모달 모델로, 텍스트, 이미지, 오디오, 비디오를 단일 모델에서 처리함. Gemini 1.5는 최대 2M 토큰의 컨텍스트를 지원하며, 비디오 네이티브 처리가 가능함.

2. 모델 패밀리¶

모델	특징	컨텍스트
Gemini 1.5 Pro	최고 성능, 장문 컨텍스트	2M 토큰
Gemini 1.5 Flash	빠른 응답, 비용 효율	1M 토큰
Gemini 1.5 Flash-8B	경량화	1M 토큰
Gemini 1.0 Ultra	이전 세대 최고 성능	32K 토큰
Gemini 1.0 Pro	이전 세대 균형	32K 토큰

2. 아키텍처¶

2.1 핵심 구조¶

Gemini는 처음부터 멀티모달을 위해 설계된 네이티브 멀티모달 모델.

[이미지/비디오/오디오/텍스트] --> [통합 토크나이저]
                                     |
                                     v
                            [Sparse MoE Transformer]
                                     |
                                     v
                              [출력 생성]

2.2 핵심 컴포넌트¶

컴포넌트	사양
아키텍처	Sparse Mixture of Experts (MoE)
Vision 처리	네이티브 (별도 인코더 없음)
컨텍스트	최대 2M 토큰 (10M 내부 테스트)
모달리티	텍스트, 이미지, 오디오, 비디오

2.3 Sparse MoE 특징¶

전체 파라미터 중 일부만 활성화
추론 효율성 향상
전문가 네트워크의 조합으로 다양한 태스크 처리

3. 이미지/비디오 처리¶

3.1 이미지 해상도¶

항목	사양
최대 해상도	제한 없음 (토큰 변환)
토큰 계산	258 토큰/이미지 (기본)
지원 포맷	PNG, JPEG, GIF, WebP
최대 이미지 크기	20MB

3.2 비디오 처리 (네이티브)¶

항목	사양
최대 길이	~1시간 (토큰 제한 내)
프레임 추출	1 FPS 기본
토큰 계산	~258 토큰/프레임
지원 포맷	MP4, MOV, AVI, MKV 등
오디오 처리	동시 처리 가능

3.3 멀티 이미지 처리¶

항목	지원
2M 컨텍스트 기준	3,600+ 이미지
이미지 간 추론	지원
시계열 분석	지원

4. 벤치마크 성능¶

4.1 Gemini 1.5 Pro (2024)¶

벤치마크	점수	비고
MMMU (val)	62.2%	-
MathVista	63.9%	-
AI2D	80.3%	-
ChartQA	87.2%	-
DocVQA	93.1%	-
TextVQA	78.7%	-
VQAv2	80.2%	-

4.2 Gemini 1.5 Flash¶

벤치마크	점수	비고
MMMU	56.1%	1.0 Ultra 능가
DocVQA	89.9%	-
TextVQA	78.4%	-

4.3 비디오 이해 벤치마크¶

벤치마크	Gemini 1.5 Pro	비고
VATEX	62.7%	비디오 캡셔닝
YouCook2	52.3%	요리 비디오
ActivityNet	56.2%	활동 인식

5. API 사용¶

5.1 가격 (2024.12 기준, 128K 이하)¶

모델	입력 (1M 토큰)	출력 (1M 토큰)
Gemini 1.5 Pro	$1.25	$5.00
Gemini 1.5 Flash	$0.075	$0.30
Gemini 1.5 Flash-8B	$0.0375	$0.15

128K 초과 시 2배 가격 적용.

5.2 API 예시 (Google AI Studio)¶

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# 이미지 분석
model = genai.GenerativeModel("gemini-1.5-pro")

image = genai.upload_file("image.jpg")

response = model.generate_content([
    image,
    "이 이미지를 자세히 설명해주세요."
])

print(response.text)

5.3 비디오 분석¶

import google.generativeai as genai

model = genai.GenerativeModel("gemini-1.5-pro")

# 비디오 업로드
video = genai.upload_file("video.mp4")

# 업로드 완료 대기
import time
while video.state.name == "PROCESSING":
    time.sleep(5)
    video = genai.get_file(video.name)

response = model.generate_content([
    video,
    "이 비디오의 주요 내용을 요약해주세요."
])

5.4 멀티 이미지 분석¶

images = [
    genai.upload_file("image1.jpg"),
    genai.upload_file("image2.jpg"),
    genai.upload_file("image3.jpg")
]

response = model.generate_content([
    *images,
    "이 세 이미지의 공통점과 차이점을 분석해주세요."
])

5.5 Vertex AI 사용¶

import vertexai
from vertexai.generative_models import GenerativeModel, Part

vertexai.init(project="your-project", location="us-central1")

model = GenerativeModel("gemini-1.5-pro")

image = Part.from_uri(
    uri="gs://bucket/image.jpg",
    mime_type="image/jpeg"
)

response = model.generate_content([image, "Describe this image."])

6. 장점¶

장점	설명
네이티브 비디오	직접 비디오 처리, 최대 1시간
초장문 컨텍스트	2M 토큰 (3600+ 이미지)
비용 효율	Flash 모델 매우 저렴
멀티모달 통합	오디오 동시 처리
빠른 응답	Flash 모델 저지연
다국어	광범위한 언어 지원

7. 단점¶

단점	설명
환각	비디오에서 세부 사항 오류
폐쇄형	모델 가중치 비공개
복잡한 추론	GPT-4/Claude 대비 약간 약함
지역 제한	일부 지역 서비스 불가
가격 변동	컨텍스트 길이에 따라 2배

8. 사용 사례¶

8.1 적합한 사용 사례¶

비디오 분석 및 요약
대용량 문서 처리 (수백 페이지)
멀티 이미지 시계열 분석
비디오 컨텐츠 모더레이션
회의 녹화 분석
교육 비디오 분석

8.2 부적합한 사용 사례¶

고정밀 OCR (Claude 권장)
복잡한 논리 추론 (GPT-4 권장)
오프라인 환경

9. 제한사항¶

9.1 콘텐츠 정책¶

유해 콘텐츠 필터링
개인 식별 정보 보호
의료/법률 조언 제한

9.2 기술적 제한¶

항목	제한
파일 크기	20MB (이미지), 2GB (비디오)
비디오 길이	~1시간 (토큰 제한)
요청 제한	분당 60회 (Free tier)
오디오 길이	9.5시간

10. Gemini 2.0 (2024.12)¶

10.1 새로운 기능¶

네이티브 이미지 생성
네이티브 TTS
네이티브 도구 사용
에이전트 기능 강화

10.2 Gemini 2.0 Flash¶

특징	사양
성능	1.5 Pro 수준
속도	2배 빠름
멀티모달 출력	이미지, 오디오 생성

11. 버전 히스토리¶

버전	출시일	주요 변경
Gemini 1.0	2023.12	첫 공개
Gemini 1.0 Ultra	2024.02	최고 성능 버전
Gemini 1.5 Pro	2024.02	1M 컨텍스트
Gemini 1.5 Pro (2M)	2024.05	2M 컨텍스트 확장
Gemini 1.5 Flash	2024.05	경량화 버전
Gemini 2.0 Flash	2024.12	멀티모달 출력

Gemini Vision (Gemini 1.5 Pro / Flash)¶

1. 개요¶

2. 모델 패밀리¶

2. 아키텍처¶

2.1 핵심 구조¶

2.2 핵심 컴포넌트¶

2.3 Sparse MoE 특징¶

3. 이미지/비디오 처리¶

3.1 이미지 해상도¶

3.2 비디오 처리 (네이티브)¶

3.3 멀티 이미지 처리¶

4. 벤치마크 성능¶

4.1 Gemini 1.5 Pro (2024)¶

4.2 Gemini 1.5 Flash¶

4.3 비디오 이해 벤치마크¶

5. API 사용¶

5.1 가격 (2024.12 기준, 128K 이하)¶

5.2 API 예시 (Google AI Studio)¶

5.3 비디오 분석¶

5.4 멀티 이미지 분석¶

5.5 Vertex AI 사용¶

6. 장점¶

7. 단점¶

8. 사용 사례¶

8.1 적합한 사용 사례¶

8.2 부적합한 사용 사례¶

9. 제한사항¶

9.1 콘텐츠 정책¶

9.2 기술적 제한¶

10. Gemini 2.0 (2024.12)¶

10.1 새로운 기능¶

10.2 Gemini 2.0 Flash¶

11. 버전 히스토리¶

12. 참고 자료¶