콘텐츠로 이동

VLM 하드웨어별 추천 가이드

1. 하드웨어 요구사항 개요

1.1 VRAM 요구량 기준

VRAM 실행 가능 모델 (FP16) 양자화 시
4GB - PaliGemma-3B (INT4)
8GB PaliGemma-3B, Qwen2-VL-2B LLaVA-7B (INT4)
12GB LLaVA-7B, Qwen2-VL-2B Qwen2-VL-7B (INT4)
16GB LLaVA-1.5-7B, Qwen2-VL-7B Pixtral-12B (INT4)
24GB LLaVA-1.5-13B, Pixtral-12B LLaVA-NeXT-34B (INT4)
48GB LLaVA-NeXT-34B, Qwen2-VL-72B (INT4) CogVLM2-llama3-chat
80GB+ Qwen2-VL-72B, LLaVA-NeXT-72B -

1.2 추론 속도 비교 (토큰/초, A100 80GB 기준)

모델 FP16 INT8 INT4
LLaVA-1.5-7B 45 60 80
LLaVA-1.5-13B 30 40 55
Qwen2-VL-7B 40 55 70
Pixtral-12B 35 48 65
Qwen2-VL-72B 8 12 18

2. 소비자용 GPU

2.1 NVIDIA RTX 3060/4060 (12GB)

추천 모델:

순위 모델 양자화 성능
1 Qwen2-VL-2B-Instruct FP16 실용적
2 PaliGemma-3B FP16 빠름
3 LLaVA-1.5-7B INT4 느림

설정 예시 (vLLM):

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2-VL-2B-Instruct \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.9

2.2 NVIDIA RTX 3080/4070 Ti (16GB)

추천 모델:

순위 모델 양자화 용도
1 Qwen2-VL-7B-Instruct INT8 범용
2 LLaVA-1.5-7B FP16 고품질
3 Pixtral-12B INT4 문서 OCR

AWQ 양자화 사용:

# Qwen2-VL-7B-Instruct-AWQ
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2-VL-7B-Instruct-AWQ \
  --quantization awq \
  --max-model-len 8192

2.3 NVIDIA RTX 3090/4090 (24GB)

추천 모델:

순위 모델 양자화 성능 등급
1 Qwen2-VL-7B-Instruct FP16 최적
2 Pixtral-12B FP16 우수
3 LLaVA-1.5-13B INT8 양호
4 LLaVA-NeXT-34B INT4 느림

최적 설정:

# Pixtral-12B with vLLM
vllm serve mistralai/Pixtral-12B-2409 \
  --tokenizer_mode mistral \
  --limit_mm_per_prompt 'image=4' \
  --max-model-len 16384

3. 워크스테이션/서버 GPU

3.1 NVIDIA A10/L4 (24GB, 클라우드)

추천 모델:

순위 모델 특징
1 Qwen2-VL-7B 비용 효율
2 Pixtral-12B Apache 라이선스
3 CogVLM2-llama3-chat-19B INT4 필요

클라우드 비용 (시간당): - AWS g5.xlarge (A10): ~\(1.00 - GCP L4: ~\)0.70 - Lambda Labs A10: ~$0.60

3.2 NVIDIA A100/H100 (40GB/80GB)

추천 모델:

GPU 추천 모델 비고
A100 40GB Qwen2-VL-72B (INT4) 양자화 필수
A100 80GB Qwen2-VL-72B (INT8) 고품질
H100 80GB Qwen2-VL-72B (FP16) 최고 성능

멀티 GPU 설정:

# 2x A100 80GB for Qwen2-VL-72B FP16
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2-VL-72B-Instruct \
  --tensor-parallel-size 2 \
  --max-model-len 32768

3.3 멀티 GPU 구성

구성 총 VRAM 추천 모델
2x RTX 4090 48GB LLaVA-NeXT-34B (FP16)
2x A100 40GB 80GB Qwen2-VL-72B (INT8)
4x A100 40GB 160GB LLaVA-NeXT-110B (INT4)
8x H100 80GB 640GB 대규모 배치 처리

4. Apple Silicon

4.1 M1/M2/M3 시리즈

칩셋 통합 메모리 추천 모델
M1 8GB 8GB PaliGemma-3B
M1 Pro 16GB 16GB LLaVA-1.5-7B
M1 Max 32GB 32GB LLaVA-1.5-13B
M1 Ultra 64GB 64GB Qwen2-VL-72B (INT4)
M2 Ultra 192GB 192GB 대부분 모델 FP16

MLX 프레임워크 사용:

# MLX 설치
pip install mlx-vlm

# LLaVA 실행
python -m mlx_vlm.generate \
  --model mlx-community/llava-1.5-7b-4bit \
  --image image.jpg \
  --prompt "Describe this image"

4.2 성능 비교 (토큰/초)

모델 M1 Pro M2 Max M3 Max
LLaVA-1.5-7B (4bit) 15 25 35
Qwen2-VL-7B (4bit) 12 20 28

5. 클라우드 서비스별 추천

5.1 AWS

인스턴스 GPU VRAM 추천 모델 시간당 비용
g4dn.xlarge T4 16GB LLaVA-7B INT8 $0.53
g5.xlarge A10G 24GB Pixtral-12B $1.01
g5.2xlarge A10G 24GB Qwen2-VL-7B $1.21
p4d.24xlarge 8xA100 320GB Qwen2-VL-72B $32.77

5.2 GCP

인스턴스 GPU 추천 모델 시간당 비용
n1-standard-4 + T4 T4 16GB LLaVA-7B $0.35
a2-highgpu-1g A100 40GB Qwen2-VL-72B INT4 $3.67
a2-highgpu-8g 8xA100 LLaVA-NeXT-110B $29.39

5.3 Serverless 옵션

서비스 지원 모델 가격 (1M 토큰)
Replicate LLaVA, Qwen2-VL ~$0.50
Together AI LLaVA-NeXT ~$0.20
Fireworks AI LLaVA, Pixtral ~$0.20

6. 엣지 디바이스

6.1 Jetson Orin

모델 Orin Nano (8GB) Orin NX (16GB) AGX Orin (64GB)
PaliGemma-3B INT4 INT8 FP16
LLaVA-7B - INT4 INT8
Qwen2-VL-7B - INT4 FP16

6.2 Raspberry Pi 5 (8GB)

제한적 지원: - PaliGemma-3B INT4: 가능 (매우 느림, ~1 tok/s) - 권장: 클라우드 API 사용

6.3 스마트폰

플랫폼 라이브러리 지원 모델
Android MLC LLM Qwen2-VL-2B INT4
iOS MLX LLaVA-1.5-7B INT4

7. 최적화 기법

7.1 양자화 방법 비교

방법 품질 손실 속도 향상 VRAM 절감
INT8 낮음 1.3x 50%
INT4 (AWQ) 중간 1.8x 75%
INT4 (GPTQ) 중간 1.6x 75%
GGUF Q4_K_M 중-저 1.7x 75%

7.2 추론 최적화

기법 효과 적용 대상
Flash Attention 2 2x 속도, 메모리 절감 모든 모델
KV Cache 양자화 메모리 절감 긴 컨텍스트
Speculative Decoding 2-3x 속도 대형 모델
Continuous Batching 처리량 증가 서버 배포

7.3 프레임워크별 특징

프레임워크 장점 단점
vLLM 최고 처리량, PagedAttention CUDA만 지원
TensorRT-LLM NVIDIA 최적화 설정 복잡
llama.cpp CPU/Metal 지원, GGUF 처리량 낮음
MLX Apple Silicon 최적화 Mac 전용
Transformers 호환성 최고 느림

8. 권장 구성 예시

8.1 개인 개발자 (예산 $1,500)

하드웨어: - RTX 4070 Ti Super (16GB): ~$800 - 32GB RAM - 1TB NVMe SSD

추천 스택: - 모델: Qwen2-VL-7B-Instruct-AWQ - 프레임워크: vLLM - 용도: 개발, 테스트, 소규모 서비스

8.2 스타트업 (예산 $10,000)

하드웨어: - RTX 4090 x2 (48GB): ~$4,000 - 128GB RAM - 워크스테이션 본체

추천 스택: - 모델: LLaVA-NeXT-34B (FP16) - 프레임워크: vLLM + Tensor Parallel - 용도: 프로덕션 서비스

8.3 엔터프라이즈 (클라우드)

인프라: - AWS p4d.24xlarge (8x A100 40GB) - 또는 GCP a2-ultragpu-8g (8x A100 80GB)

추천 스택: - 모델: Qwen2-VL-72B-Instruct - 프레임워크: vLLM + Ray Serve - 용도: 대규모 프로덕션

9. 의사결정 매트릭스

예산/VRAM
    |
    v
< 12GB -----> PaliGemma-3B / Qwen2-VL-2B
    |
12-16GB ----> LLaVA-1.5-7B / Qwen2-VL-7B (INT8)
    |
16-24GB ----> Qwen2-VL-7B / Pixtral-12B (FP16)
    |
24-48GB ----> LLaVA-1.5-13B / LLaVA-NeXT-34B (INT4)
    |
48-80GB ----> Qwen2-VL-72B (INT4) / LLaVA-NeXT-34B (FP16)
    |
> 80GB -----> Qwen2-VL-72B (FP16) / LLaVA-NeXT-72B

10. 요약

환경 최적 모델 대안
저사양 (8-12GB) Qwen2-VL-2B PaliGemma-3B
중간 (16-24GB) Qwen2-VL-7B Pixtral-12B
고사양 (48GB+) Qwen2-VL-72B LLaVA-NeXT-34B
Apple Silicon LLaVA-1.5-7B (MLX) Qwen2-VL-7B
클라우드 API 상용 API Together AI