Claude 3 Vision / Claude 3.5 Sonnet¶

1. 개요¶

항목	내용
개발사	Anthropic
공개일	Claude 3: 2024.03, Claude 3.5 Sonnet: 2024.06
모델 타입	Proprietary (Closed Source)
접근 방식	API, Claude.ai

Claude 3 시리즈는 Anthropic의 멀티모달 AI 모델로, Opus, Sonnet, Haiku 세 가지 버전이 있다. Claude 3.5 Sonnet은 Claude 3 Opus를 능가하는 성능을 보여주며, 특히 시각적 추론에서 우수하다.

2. 모델 패밀리¶

모델	파라미터 (추정)	특징
Claude 3 Haiku	~20B	빠른 응답, 저비용
Claude 3 Sonnet	~70B	균형 잡힌 성능
Claude 3 Opus	~200B	최고 성능
Claude 3.5 Sonnet	~70B	Opus 능가, 최신
Claude 3.5 Haiku	~20B	경량 최신 버전

2. 아키텍처¶

2.1 추정 구조¶

Anthropic은 상세 아키텍처를 공개하지 않음. 추정되는 구조:

[이미지] --> [Vision Encoder] --> [Cross-Attention / Projection]
                                            |
[텍스트] --> [Transformer Decoder] <--------|

2.2 핵심 컴포넌트¶

컴포넌트	추정 사양
Vision Encoder	ViT 기반
Language Model	Transformer Decoder
컨텍스트 길이	200K 토큰
학습 방식	Constitutional AI (RLHF + CAI)

2.3 특징적 설계¶

Constitutional AI: 자체 개선 기반 안전성 학습
긴 컨텍스트: 200K 토큰 지원
멀티 이미지: 최대 20개 이미지 동시 처리

3. 이미지 처리¶

3.1 해상도 지원¶

항목	사양
최대 해상도	8,192 x 8,192 픽셀
권장 해상도	1,568 x 1,568 픽셀
최대 이미지 크기	20MB (API), 10MB (Claude.ai)

3.2 토큰 계산¶

이미지 토큰 = (width * height) / 750

해상도	토큰 수
1092x1092	~1,590
1568x1568	~3,280
2048x2048	~5,590

3.3 멀티 이미지¶

항목	지원
최대 이미지 수	20개 (200K 컨텍스트 내)
이미지 간 비교	지원
PDF 지원	지원 (페이지별 이미지 변환)

3.4 지원 포맷¶

JPEG
PNG
GIF
WebP

4. 벤치마크 성능¶

4.1 Claude 3.5 Sonnet (2024.06)¶

벤치마크	점수	비고
MMMU (val)	68.3%	GPT-4o에 근접
MathVista	67.7%	수학적 추론 우수
ChartQA	90.8%	SOTA
DocVQA	95.2%	SOTA
AI2D	94.7%	과학 다이어그램
TextVQA	77.8%	이미지 내 텍스트
VQAv2	84.2%	일반 VQA

4.2 Open VLM Leaderboard 순위 (2024)¶

Claude 3.5 Sonnet: 전체 2위 - 8개 벤치마크 중 6개에서 Top 2

4.3 Claude 3 Opus vs Claude 3.5 Sonnet¶

벤치마크	Opus	3.5 Sonnet
MMMU	59.4%	68.3%
MathVista	50.5%	67.7%
ChartQA	80.8%	90.8%

5. API 사용¶

5.1 가격 (2024.12 기준)¶

모델	입력 (1M 토큰)	출력 (1M 토큰)
Claude 3.5 Sonnet	$3.00	$15.00
Claude 3 Opus	$15.00	$75.00
Claude 3 Sonnet	$3.00	$15.00
Claude 3 Haiku	$0.25	$1.25

5.2 API 예시¶

import anthropic
import base64

client = anthropic.Anthropic()

# URL 방식
response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "url",
                        "url": "https://example.com/image.jpg"
                    }
                },
                {
                    "type": "text",
                    "text": "이 이미지를 분석해주세요."
                }
            ]
        }
    ]
)

5.3 Base64 이미지 전송¶

import base64
import httpx

# 이미지 로드 및 인코딩
image_data = base64.standard_b64encode(
    httpx.get("https://example.com/image.jpg").content
).decode("utf-8")

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/jpeg",
                        "data": image_data
                    }
                },
                {
                    "type": "text",
                    "text": "Describe this image."
                }
            ]
        }
    ]
)

5.4 멀티 이미지 비교¶

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "image", "source": {"type": "url", "url": url1}},
                {"type": "image", "source": {"type": "url", "url": url2}},
                {"type": "text", "text": "두 이미지의 차이점을 설명하세요."}
            ]
        }
    ]
)

6. 장점¶

장점	설명
차트/문서 분석	ChartQA, DocVQA SOTA
긴 컨텍스트	200K 토큰, 멀티 이미지
안전성	Constitutional AI 기반
코드 생성	Artifacts 기능, UI 코드 우수
정확한 추론	논리적 설명 능력
비용 효율	Opus 대비 Sonnet 가성비

7. 단점¶

단점	설명
비디오 미지원	직접적인 비디오 처리 불가
중국어 OCR	GPT-4V 대비 약함
폐쇄형	모델 가중치 비공개
이미지 생성 불가	이해만 가능
가끔 거부	안전 필터 오작동

8. 사용 사례¶

8.1 적합한 사용 사례¶

차트/그래프 해석 및 데이터 추출
기술 문서 분석
코드 리뷰 (스크린샷)
학술 논문 그래프 분석
UI/UX 피드백
긴 문서 요약 (멀티페이지)

8.2 부적합한 사용 사례¶

실시간 비디오 분석
중국어 텍스트 OCR
대량 이미지 배치 처리
오프라인 환경

9. 제한사항¶

9.1 콘텐츠 정책¶

사람 식별 거부
의료 진단 거부
유해 콘텐츠 거부
CAPTCHA 거부

9.2 기술적 제한¶

항목	제한
최대 이미지 크기	20MB
최대 해상도	8192x8192
컨텍스트 제한	200K 토큰
응답 길이	8192 토큰

10. Claude 3.5 Sonnet 특별 기능¶

10.1 Artifacts¶

코드, 문서, 다이어그램을 별도 창에서 렌더링하는 기능.

10.2 Computer Use (Beta)¶

마우스/키보드를 제어하여 컴퓨터 작업을 수행하는 에이전트 기능.

# Computer Use API 예시
response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[{"type": "computer_20241022", "display_width_px": 1920, "display_height_px": 1080}],
    messages=[...]
)

11. 버전 히스토리¶

버전	출시일	주요 변경
Claude 3 (Opus/Sonnet/Haiku)	2024.03	멀티모달 첫 지원
Claude 3.5 Sonnet	2024.06	Opus 능가, Vision 강화
Claude 3.5 Sonnet (v2)	2024.10	Computer Use, 성능 향상
Claude 3.5 Haiku	2024.11	경량 최신 버전