Claude 3 Vision / Claude 3.5 Sonnet
1. 개요
| 항목 |
내용 |
| 개발사 |
Anthropic |
| 공개일 |
Claude 3: 2024.03, Claude 3.5 Sonnet: 2024.06 |
| 모델 타입 |
Proprietary (Closed Source) |
| 접근 방식 |
API, Claude.ai |
Claude 3 시리즈는 Anthropic의 멀티모달 AI 모델로, Opus, Sonnet, Haiku 세 가지 버전이 있다. Claude 3.5 Sonnet은 Claude 3 Opus를 능가하는 성능을 보여주며, 특히 시각적 추론에서 우수하다.
2. 모델 패밀리
| 모델 |
파라미터 (추정) |
특징 |
| Claude 3 Haiku |
~20B |
빠른 응답, 저비용 |
| Claude 3 Sonnet |
~70B |
균형 잡힌 성능 |
| Claude 3 Opus |
~200B |
최고 성능 |
| Claude 3.5 Sonnet |
~70B |
Opus 능가, 최신 |
| Claude 3.5 Haiku |
~20B |
경량 최신 버전 |
2. 아키텍처
2.1 추정 구조
Anthropic은 상세 아키텍처를 공개하지 않음. 추정되는 구조:
[이미지] --> [Vision Encoder] --> [Cross-Attention / Projection]
|
[텍스트] --> [Transformer Decoder] <--------|
2.2 핵심 컴포넌트
| 컴포넌트 |
추정 사양 |
| Vision Encoder |
ViT 기반 |
| Language Model |
Transformer Decoder |
| 컨텍스트 길이 |
200K 토큰 |
| 학습 방식 |
Constitutional AI (RLHF + CAI) |
2.3 특징적 설계
- Constitutional AI: 자체 개선 기반 안전성 학습
- 긴 컨텍스트: 200K 토큰 지원
- 멀티 이미지: 최대 20개 이미지 동시 처리
3. 이미지 처리
3.1 해상도 지원
| 항목 |
사양 |
| 최대 해상도 |
8,192 x 8,192 픽셀 |
| 권장 해상도 |
1,568 x 1,568 픽셀 |
| 최대 이미지 크기 |
20MB (API), 10MB (Claude.ai) |
3.2 토큰 계산
이미지 토큰 = (width * height) / 750
| 해상도 |
토큰 수 |
| 1092x1092 |
~1,590 |
| 1568x1568 |
~3,280 |
| 2048x2048 |
~5,590 |
3.3 멀티 이미지
| 항목 |
지원 |
| 최대 이미지 수 |
20개 (200K 컨텍스트 내) |
| 이미지 간 비교 |
지원 |
| PDF 지원 |
지원 (페이지별 이미지 변환) |
3.4 지원 포맷
4. 벤치마크 성능
4.1 Claude 3.5 Sonnet (2024.06)
| 벤치마크 |
점수 |
비고 |
| MMMU (val) |
68.3% |
GPT-4o에 근접 |
| MathVista |
67.7% |
수학적 추론 우수 |
| ChartQA |
90.8% |
SOTA |
| DocVQA |
95.2% |
SOTA |
| AI2D |
94.7% |
과학 다이어그램 |
| TextVQA |
77.8% |
이미지 내 텍스트 |
| VQAv2 |
84.2% |
일반 VQA |
4.2 Open VLM Leaderboard 순위 (2024)
Claude 3.5 Sonnet: 전체 2위
- 8개 벤치마크 중 6개에서 Top 2
4.3 Claude 3 Opus vs Claude 3.5 Sonnet
| 벤치마크 |
Opus |
3.5 Sonnet |
| MMMU |
59.4% |
68.3% |
| MathVista |
50.5% |
67.7% |
| ChartQA |
80.8% |
90.8% |
5. API 사용
5.1 가격 (2024.12 기준)
| 모델 |
입력 (1M 토큰) |
출력 (1M 토큰) |
| Claude 3.5 Sonnet |
$3.00 |
$15.00 |
| Claude 3 Opus |
$15.00 |
$75.00 |
| Claude 3 Sonnet |
$3.00 |
$15.00 |
| Claude 3 Haiku |
$0.25 |
$1.25 |
5.2 API 예시
import anthropic
import base64
client = anthropic.Anthropic()
# URL 방식
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "url",
"url": "https://example.com/image.jpg"
}
},
{
"type": "text",
"text": "이 이미지를 분석해주세요."
}
]
}
]
)
5.3 Base64 이미지 전송
import base64
import httpx
# 이미지 로드 및 인코딩
image_data = base64.standard_b64encode(
httpx.get("https://example.com/image.jpg").content
).decode("utf-8")
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": image_data
}
},
{
"type": "text",
"text": "Describe this image."
}
]
}
]
)
5.4 멀티 이미지 비교
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{"type": "image", "source": {"type": "url", "url": url1}},
{"type": "image", "source": {"type": "url", "url": url2}},
{"type": "text", "text": "두 이미지의 차이점을 설명하세요."}
]
}
]
)
6. 장점
| 장점 |
설명 |
| 차트/문서 분석 |
ChartQA, DocVQA SOTA |
| 긴 컨텍스트 |
200K 토큰, 멀티 이미지 |
| 안전성 |
Constitutional AI 기반 |
| 코드 생성 |
Artifacts 기능, UI 코드 우수 |
| 정확한 추론 |
논리적 설명 능력 |
| 비용 효율 |
Opus 대비 Sonnet 가성비 |
7. 단점
| 단점 |
설명 |
| 비디오 미지원 |
직접적인 비디오 처리 불가 |
| 중국어 OCR |
GPT-4V 대비 약함 |
| 폐쇄형 |
모델 가중치 비공개 |
| 이미지 생성 불가 |
이해만 가능 |
| 가끔 거부 |
안전 필터 오작동 |
8. 사용 사례
8.1 적합한 사용 사례
- 차트/그래프 해석 및 데이터 추출
- 기술 문서 분석
- 코드 리뷰 (스크린샷)
- 학술 논문 그래프 분석
- UI/UX 피드백
- 긴 문서 요약 (멀티페이지)
8.2 부적합한 사용 사례
- 실시간 비디오 분석
- 중국어 텍스트 OCR
- 대량 이미지 배치 처리
- 오프라인 환경
9. 제한사항
9.1 콘텐츠 정책
- 사람 식별 거부
- 의료 진단 거부
- 유해 콘텐츠 거부
- CAPTCHA 거부
9.2 기술적 제한
| 항목 |
제한 |
| 최대 이미지 크기 |
20MB |
| 최대 해상도 |
8192x8192 |
| 컨텍스트 제한 |
200K 토큰 |
| 응답 길이 |
8192 토큰 |
10. Claude 3.5 Sonnet 특별 기능
10.1 Artifacts
코드, 문서, 다이어그램을 별도 창에서 렌더링하는 기능.
10.2 Computer Use (Beta)
마우스/키보드를 제어하여 컴퓨터 작업을 수행하는 에이전트 기능.
# Computer Use API 예시
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
tools=[{"type": "computer_20241022", "display_width_px": 1920, "display_height_px": 1080}],
messages=[...]
)
11. 버전 히스토리
| 버전 |
출시일 |
주요 변경 |
| Claude 3 (Opus/Sonnet/Haiku) |
2024.03 |
멀티모달 첫 지원 |
| Claude 3.5 Sonnet |
2024.06 |
Opus 능가, Vision 강화 |
| Claude 3.5 Sonnet (v2) |
2024.10 |
Computer Use, 성능 향상 |
| Claude 3.5 Haiku |
2024.11 |
경량 최신 버전 |
12. 참고 자료