콘텐츠로 이동

Gemini Vision (Gemini 1.5 Pro / Flash)

1. 개요

항목 내용
개발사 Google DeepMind
공개일 Gemini 1.0: 2023.12, Gemini 1.5: 2024.02
모델 타입 Proprietary (Closed Source)
접근 방식 API (Vertex AI, AI Studio), Gemini App

Gemini는 Google의 네이티브 멀티모달 모델로, 텍스트, 이미지, 오디오, 비디오를 단일 모델에서 처리한다. Gemini 1.5는 최대 2M 토큰의 컨텍스트를 지원하며, 비디오 네이티브 처리가 가능하다.

2. 모델 패밀리

모델 특징 컨텍스트
Gemini 1.5 Pro 최고 성능, 장문 컨텍스트 2M 토큰
Gemini 1.5 Flash 빠른 응답, 비용 효율 1M 토큰
Gemini 1.5 Flash-8B 경량화 1M 토큰
Gemini 1.0 Ultra 이전 세대 최고 성능 32K 토큰
Gemini 1.0 Pro 이전 세대 균형 32K 토큰

2. 아키텍처

2.1 핵심 구조

Gemini는 처음부터 멀티모달을 위해 설계된 네이티브 멀티모달 모델이다.

[이미지/비디오/오디오/텍스트] --> [통합 토크나이저]
                                     |
                                     v
                            [Sparse MoE Transformer]
                                     |
                                     v
                              [출력 생성]

2.2 핵심 컴포넌트

컴포넌트 사양
아키텍처 Sparse Mixture of Experts (MoE)
Vision 처리 네이티브 (별도 인코더 없음)
컨텍스트 최대 2M 토큰 (10M 내부 테스트)
모달리티 텍스트, 이미지, 오디오, 비디오

2.3 Sparse MoE 특징

  • 전체 파라미터 중 일부만 활성화
  • 추론 효율성 향상
  • 전문가 네트워크의 조합으로 다양한 태스크 처리

3. 이미지/비디오 처리

3.1 이미지 해상도

항목 사양
최대 해상도 제한 없음 (토큰 변환)
토큰 계산 258 토큰/이미지 (기본)
지원 포맷 PNG, JPEG, GIF, WebP
최대 이미지 크기 20MB

3.2 비디오 처리 (네이티브)

항목 사양
최대 길이 ~1시간 (토큰 제한 내)
프레임 추출 1 FPS 기본
토큰 계산 ~258 토큰/프레임
지원 포맷 MP4, MOV, AVI, MKV 등
오디오 처리 동시 처리 가능

3.3 멀티 이미지 처리

항목 지원
2M 컨텍스트 기준 3,600+ 이미지
이미지 간 추론 지원
시계열 분석 지원

4. 벤치마크 성능

4.1 Gemini 1.5 Pro (2024)

벤치마크 점수 비고
MMMU (val) 62.2% -
MathVista 63.9% -
AI2D 80.3% -
ChartQA 87.2% -
DocVQA 93.1% -
TextVQA 78.7% -
VQAv2 80.2% -

4.2 Gemini 1.5 Flash

벤치마크 점수 비고
MMMU 56.1% 1.0 Ultra 능가
DocVQA 89.9% -
TextVQA 78.4% -

4.3 비디오 이해 벤치마크

벤치마크 Gemini 1.5 Pro 비고
VATEX 62.7% 비디오 캡셔닝
YouCook2 52.3% 요리 비디오
ActivityNet 56.2% 활동 인식

5. API 사용

5.1 가격 (2024.12 기준, 128K 이하)

모델 입력 (1M 토큰) 출력 (1M 토큰)
Gemini 1.5 Pro $1.25 $5.00
Gemini 1.5 Flash $0.075 $0.30
Gemini 1.5 Flash-8B $0.0375 $0.15

128K 초과 시 2배 가격 적용.

5.2 API 예시 (Google AI Studio)

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# 이미지 분석
model = genai.GenerativeModel("gemini-1.5-pro")

image = genai.upload_file("image.jpg")

response = model.generate_content([
    image,
    "이 이미지를 자세히 설명해주세요."
])

print(response.text)

5.3 비디오 분석

import google.generativeai as genai

model = genai.GenerativeModel("gemini-1.5-pro")

# 비디오 업로드
video = genai.upload_file("video.mp4")

# 업로드 완료 대기
import time
while video.state.name == "PROCESSING":
    time.sleep(5)
    video = genai.get_file(video.name)

response = model.generate_content([
    video,
    "이 비디오의 주요 내용을 요약해주세요."
])

5.4 멀티 이미지 분석

images = [
    genai.upload_file("image1.jpg"),
    genai.upload_file("image2.jpg"),
    genai.upload_file("image3.jpg")
]

response = model.generate_content([
    *images,
    "이 세 이미지의 공통점과 차이점을 분석해주세요."
])

5.5 Vertex AI 사용

import vertexai
from vertexai.generative_models import GenerativeModel, Part

vertexai.init(project="your-project", location="us-central1")

model = GenerativeModel("gemini-1.5-pro")

image = Part.from_uri(
    uri="gs://bucket/image.jpg",
    mime_type="image/jpeg"
)

response = model.generate_content([image, "Describe this image."])

6. 장점

장점 설명
네이티브 비디오 직접 비디오 처리, 최대 1시간
초장문 컨텍스트 2M 토큰 (3600+ 이미지)
비용 효율 Flash 모델 매우 저렴
멀티모달 통합 오디오 동시 처리
빠른 응답 Flash 모델 저지연
다국어 광범위한 언어 지원

7. 단점

단점 설명
환각 비디오에서 세부 사항 오류
폐쇄형 모델 가중치 비공개
복잡한 추론 GPT-4/Claude 대비 약간 약함
지역 제한 일부 지역 서비스 불가
가격 변동 컨텍스트 길이에 따라 2배

8. 사용 사례

8.1 적합한 사용 사례

  • 비디오 분석 및 요약
  • 대용량 문서 처리 (수백 페이지)
  • 멀티 이미지 시계열 분석
  • 비디오 컨텐츠 모더레이션
  • 회의 녹화 분석
  • 교육 비디오 분석

8.2 부적합한 사용 사례

  • 고정밀 OCR (Claude 권장)
  • 복잡한 논리 추론 (GPT-4 권장)
  • 오프라인 환경

9. 제한사항

9.1 콘텐츠 정책

  • 유해 콘텐츠 필터링
  • 개인 식별 정보 보호
  • 의료/법률 조언 제한

9.2 기술적 제한

항목 제한
파일 크기 20MB (이미지), 2GB (비디오)
비디오 길이 ~1시간 (토큰 제한)
요청 제한 분당 60회 (Free tier)
오디오 길이 9.5시간

10. Gemini 2.0 (2024.12)

10.1 새로운 기능

  • 네이티브 이미지 생성
  • 네이티브 TTS
  • 네이티브 도구 사용
  • 에이전트 기능 강화

10.2 Gemini 2.0 Flash

특징 사양
성능 1.5 Pro 수준
속도 2배 빠름
멀티모달 출력 이미지, 오디오 생성

11. 버전 히스토리

버전 출시일 주요 변경
Gemini 1.0 2023.12 첫 공개
Gemini 1.0 Ultra 2024.02 최고 성능 버전
Gemini 1.5 Pro 2024.02 1M 컨텍스트
Gemini 1.5 Pro (2M) 2024.05 2M 컨텍스트 확장
Gemini 1.5 Flash 2024.05 경량화 버전
Gemini 2.0 Flash 2024.12 멀티모달 출력

12. 참고 자료