콘텐츠로 이동

Claude 3 Vision / Claude 3.5 Sonnet

1. 개요

항목 내용
개발사 Anthropic
공개일 Claude 3: 2024.03, Claude 3.5 Sonnet: 2024.06
모델 타입 Proprietary (Closed Source)
접근 방식 API, Claude.ai

Claude 3 시리즈는 Anthropic의 멀티모달 AI 모델로, Opus, Sonnet, Haiku 세 가지 버전이 있다. Claude 3.5 Sonnet은 Claude 3 Opus를 능가하는 성능을 보여주며, 특히 시각적 추론에서 우수하다.

2. 모델 패밀리

모델 파라미터 (추정) 특징
Claude 3 Haiku ~20B 빠른 응답, 저비용
Claude 3 Sonnet ~70B 균형 잡힌 성능
Claude 3 Opus ~200B 최고 성능
Claude 3.5 Sonnet ~70B Opus 능가, 최신
Claude 3.5 Haiku ~20B 경량 최신 버전

2. 아키텍처

2.1 추정 구조

Anthropic은 상세 아키텍처를 공개하지 않음. 추정되는 구조:

[이미지] --> [Vision Encoder] --> [Cross-Attention / Projection]
                                            |
[텍스트] --> [Transformer Decoder] <--------|

2.2 핵심 컴포넌트

컴포넌트 추정 사양
Vision Encoder ViT 기반
Language Model Transformer Decoder
컨텍스트 길이 200K 토큰
학습 방식 Constitutional AI (RLHF + CAI)

2.3 특징적 설계

  • Constitutional AI: 자체 개선 기반 안전성 학습
  • 긴 컨텍스트: 200K 토큰 지원
  • 멀티 이미지: 최대 20개 이미지 동시 처리

3. 이미지 처리

3.1 해상도 지원

항목 사양
최대 해상도 8,192 x 8,192 픽셀
권장 해상도 1,568 x 1,568 픽셀
최대 이미지 크기 20MB (API), 10MB (Claude.ai)

3.2 토큰 계산

이미지 토큰 = (width * height) / 750

해상도 토큰 수
1092x1092 ~1,590
1568x1568 ~3,280
2048x2048 ~5,590

3.3 멀티 이미지

항목 지원
최대 이미지 수 20개 (200K 컨텍스트 내)
이미지 간 비교 지원
PDF 지원 지원 (페이지별 이미지 변환)

3.4 지원 포맷

  • JPEG
  • PNG
  • GIF
  • WebP

4. 벤치마크 성능

4.1 Claude 3.5 Sonnet (2024.06)

벤치마크 점수 비고
MMMU (val) 68.3% GPT-4o에 근접
MathVista 67.7% 수학적 추론 우수
ChartQA 90.8% SOTA
DocVQA 95.2% SOTA
AI2D 94.7% 과학 다이어그램
TextVQA 77.8% 이미지 내 텍스트
VQAv2 84.2% 일반 VQA

4.2 Open VLM Leaderboard 순위 (2024)

Claude 3.5 Sonnet: 전체 2위 - 8개 벤치마크 중 6개에서 Top 2

4.3 Claude 3 Opus vs Claude 3.5 Sonnet

벤치마크 Opus 3.5 Sonnet
MMMU 59.4% 68.3%
MathVista 50.5% 67.7%
ChartQA 80.8% 90.8%

5. API 사용

5.1 가격 (2024.12 기준)

모델 입력 (1M 토큰) 출력 (1M 토큰)
Claude 3.5 Sonnet $3.00 $15.00
Claude 3 Opus $15.00 $75.00
Claude 3 Sonnet $3.00 $15.00
Claude 3 Haiku $0.25 $1.25

5.2 API 예시

import anthropic
import base64

client = anthropic.Anthropic()

# URL 방식
response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://example.com/image.jpg"
                    }
                },
                {
                    "type": "text",
                    "text": "이 이미지를 분석해주세요."
                }
            ]
        }
    ]
)

5.3 Base64 이미지 전송

import base64
import httpx

# 이미지 로드 및 인코딩
image_data = base64.standard_b64encode(
    httpx.get("https://example.com/image.jpg").content
).decode("utf-8")

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/jpeg",
                        "data": image_data
                    }
                },
                {
                    "type": "text",
                    "text": "Describe this image."
                }
            ]
        }
    ]
)

5.4 멀티 이미지 비교

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "image", "source": {"type": "url", "url": url1}},
                {"type": "image", "source": {"type": "url", "url": url2}},
                {"type": "text", "text": "두 이미지의 차이점을 설명하세요."}
            ]
        }
    ]
)

6. 장점

장점 설명
차트/문서 분석 ChartQA, DocVQA SOTA
긴 컨텍스트 200K 토큰, 멀티 이미지
안전성 Constitutional AI 기반
코드 생성 Artifacts 기능, UI 코드 우수
정확한 추론 논리적 설명 능력
비용 효율 Opus 대비 Sonnet 가성비

7. 단점

단점 설명
비디오 미지원 직접적인 비디오 처리 불가
중국어 OCR GPT-4V 대비 약함
폐쇄형 모델 가중치 비공개
이미지 생성 불가 이해만 가능
가끔 거부 안전 필터 오작동

8. 사용 사례

8.1 적합한 사용 사례

  • 차트/그래프 해석 및 데이터 추출
  • 기술 문서 분석
  • 코드 리뷰 (스크린샷)
  • 학술 논문 그래프 분석
  • UI/UX 피드백
  • 긴 문서 요약 (멀티페이지)

8.2 부적합한 사용 사례

  • 실시간 비디오 분석
  • 중국어 텍스트 OCR
  • 대량 이미지 배치 처리
  • 오프라인 환경

9. 제한사항

9.1 콘텐츠 정책

  • 사람 식별 거부
  • 의료 진단 거부
  • 유해 콘텐츠 거부
  • CAPTCHA 거부

9.2 기술적 제한

항목 제한
최대 이미지 크기 20MB
최대 해상도 8192x8192
컨텍스트 제한 200K 토큰
응답 길이 8192 토큰

10. Claude 3.5 Sonnet 특별 기능

10.1 Artifacts

코드, 문서, 다이어그램을 별도 창에서 렌더링하는 기능.

10.2 Computer Use (Beta)

마우스/키보드를 제어하여 컴퓨터 작업을 수행하는 에이전트 기능.

# Computer Use API 예시
response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[{"type": "computer_20241022", "display_width_px": 1920, "display_height_px": 1080}],
    messages=[...]
)

11. 버전 히스토리

버전 출시일 주요 변경
Claude 3 (Opus/Sonnet/Haiku) 2024.03 멀티모달 첫 지원
Claude 3.5 Sonnet 2024.06 Opus 능가, Vision 강화
Claude 3.5 Sonnet (v2) 2024.10 Computer Use, 성능 향상
Claude 3.5 Haiku 2024.11 경량 최신 버전

12. 참고 자료