MLLM (Multimodal Large Language Model) 종합 정리
개요
MLLM(Multimodal Large Language Model) 은 텍스트뿐 아니라 이미지, 비디오, 오디오 등 다양한 모달리티를 통합 처리하는 대규모 언어 모델이다. GPT-4V(2023)를 기점으로 본격적인 연구가 폭발했고, 2024~2026년 현재 가장 활발한 AI 연구 분야 중 하나다.
핵심 차별점: 기존 멀티모달 모델(CLIP, BLIP 등)은 특정 태스크(검색, 캡셔닝) 중심이었지만, MLLM은 LLM의 범용 추론 능력을 기반으로 다중 모달리티에 걸친 범용 태스크 수행이 가능하다.
| 구분 |
기존 멀티모달 |
MLLM |
| 태스크 |
고정 (검색, 캡셔닝) |
범용 (대화, 추론, 생성) |
| 추론 능력 |
제한적 |
LLM 수준의 CoT, ICL |
| 입력 |
이미지+텍스트 |
이미지+비디오+오디오+텍스트 |
| 출력 |
텍스트/임베딩 |
텍스트 (일부 모델은 이미지도) |
| Emergent 능력 |
없음 |
OCR-free 추론, 스토리 생성 등 |
1. 아키텍처
MLLM의 아키텍처는 크게 3개 모듈로 구성된다:
[입력 이미지/비디오] → [Vision Encoder] → [Connector/Projector] → [LLM Backbone] → [텍스트 출력]
↑
[텍스트 입력 (토큰)]
1.1 Vision Encoder
이미지를 고차원 feature로 변환하는 모듈. 대부분 사전학습된 ViT(Vision Transformer) 를 사용한다.
| 인코더 |
파라미터 |
특징 |
사용 모델 |
| CLIP ViT-L/14 |
304M |
텍스트-이미지 정렬 학습 |
LLaVA 1.0/1.5 |
| SigLIP-SO400M |
400M |
Sigmoid 기반 contrastive |
LLaVA-NeXT, SmolVLM |
| EVA-CLIP ViT-G |
1B |
더 큰 스케일의 CLIP |
InternVL 초기 |
| InternViT-6B |
6B |
최대 규모 vision encoder |
InternVL2/2.5/3 |
| ViT (자체 학습) |
600M |
자체 pre-training |
Qwen2-VL |
| NaViT |
- |
Native Resolution ViT |
PaLI-X, Gemini |
설계 포인트:
- 해상도 처리: 고정 해상도(336px) vs Dynamic Resolution(AnyRes)
- AnyRes: 이미지를 여러 타일로 분할 후 개별 인코딩 (LLaVA-NeXT, InternVL2)
- Qwen2-VL: Naive Dynamic Resolution - 임의 해상도를 직접 처리
- Frozen vs Fine-tuned: 초기에는 frozen이 주류였으나, InternVL2.5 이후 fine-tuning이 성능 향상에 기여함을 확인
- 큰 인코더의 이점: InternVL2.5 연구에서 6B vision encoder가 600M 대비 1/10 학습 데이터로 더 좋은 성능 달성
1.2 Connector (Projector)
Vision Encoder의 출력 차원을 LLM 임베딩 차원에 맞추는 모듈.
| 타입 |
구조 |
장점 |
단점 |
사용 모델 |
| Linear Projection |
단일 Linear Layer |
단순, 빠름 |
표현력 제한 |
LLaVA 1.0 |
| MLP (2-layer) |
Linear→GELU→Linear |
비선형성 추가 |
- |
LLaVA 1.5/NeXT |
| Q-Former |
Cross-Attention + 학습 쿼리 |
토큰 수 압축 |
학습 복잡 |
BLIP-2, InstructBLIP |
| Perceiver Resampler |
Cross-Attention 기반 |
유연한 토큰 수 조절 |
정보 손실 가능 |
Flamingo, Qwen-VL |
| C-Abstractor |
Convolution 기반 |
공간 정보 보존 |
- |
Honeybee |
| Pixel Shuffle |
해상도 축소 매핑 |
토큰 수 효율적 감소 |
- |
InternVL2 |
토큰 수 문제:
고해상도 이미지를 ViT로 인코딩하면 수백~수천 개의 visual token이 생성되어 LLM 컨텍스트를 소비한다. 이를 줄이기 위한 Visual Token Compression 연구가 활발하다:
- PVC (Progressive Visual Token Compression, CVPR 2025)
- Pixel Shuffle + MLP (InternVL2)
- Dynamic Resolution 기반 적응적 토큰 할당 (Qwen2-VL)
1.3 LLM Backbone
모든 모달리티의 정보를 통합 처리하고 텍스트를 생성하는 핵심 모듈.
| LLM |
파라미터 |
사용 MLLM |
| Vicuna-7B/13B |
7B/13B |
LLaVA 1.0/1.5 |
| LLaMA 3.x |
8B/70B |
LLaVA-NeXT |
| Qwen2/2.5 |
2B~72B |
Qwen2-VL, Qwen2.5-VL |
| InternLM2/2.5 |
1.8B~20B |
InternVL2 |
| Phi-3/3.5 |
3.8B/4.2B |
Phi-3-Vision |
| Mistral-7B |
7B |
IDEFICS2 |
| Gemma 2 |
2B/9B |
PaliGemma 2 |
1.4 아키텍처 패턴 비교
Method A: Unified Embedding Decoder (주류)
- Vision token과 Text token을 동일 시퀀스로 concat하여 디코더에 입력
- LLM 구조 변경 불필요
- 대표: LLaVA, Qwen-VL, InternVL, Gemini
[IMG_1] [IMG_2] ... [IMG_N] [텍스트 토큰들] → Decoder-only LLM → 출력
Method B: Cross-Modality Attention
- LLM 내부에 Cross-Attention 레이어를 삽입하여 visual feature 참조
- LLM 구조 수정 필요
- 대표: Flamingo, IDEFICS, NVLM-X
LLM Self-Attention → Cross-Attention(visual features) → FFN → ...
Method C: Hybrid (A+B)
- Decoder와 Cross-Attention을 모두 사용
- 대표: NVLM (D+X 모두 학습)
실무 선택 기준:
| 상황 |
추천 |
| 빠른 프로토타이핑 |
Method A (LLaVA 스타일) |
| 긴 비디오/다중 이미지 |
Method B (토큰 효율적) |
| 최고 성능 추구 |
Method C (NVLM 스타일) |
2. 훈련 전략
MLLM 훈련은 보통 2~3단계로 진행된다:
Stage 1: Pre-training (Alignment)
- 목적: Vision Encoder 출력과 LLM 임베딩 공간 정렬
- 데이터: 대규모 이미지-텍스트 쌍 (CC3M, LAION, ShareGPT4V 등)
- 학습 대상: Connector(Projector)만 학습, Vision Encoder + LLM은 frozen
- 데이터 규모: 수백만 ~ 수십억 쌍
Stage 2: Instruction Tuning (SFT)
- 목적: 멀티모달 지시 따르기 능력 학습
- 데이터: Visual Instruction Tuning 데이터
- LLaVA-Instruct-150K/665K
- ShareGPT4V
- ALLaVA (Allava-Instruct-VFLAN-4V)
- 자체 생성 데이터 (GPT-4V로 생성)
- 학습 대상: Connector + LLM (full fine-tuning 또는 LoRA)
- 핵심: 데이터 품질 > 데이터 양
Stage 3: Preference Optimization (선택)
- 목적: Hallucination 감소, 인간 선호 정렬
- 방법: DPO, RLHF, RLAIF
- 데이터: 선호 쌍 데이터 (chosen/rejected)
- 대표: RLHF-V, LLaVA-RLHF, CHAIR-DPO
┌─────────────────────────────────────────────────────────────────┐
│ Stage 1: Pre-training Stage 2: SFT Stage 3 │
│ ┌──────────────────┐ ┌──────────────────┐ ┌──────────┐ │
│ │ Image-Text Pairs │ │ Visual Instruct │ │ DPO/RLHF │ │
│ │ (수백만~수십억) │ → │ (수십만~수백만) │ → │ (수만) │ │
│ │ Projector만 학습 │ │ Proj + LLM 학습 │ │ 전체 튜닝│ │
│ └──────────────────┘ └──────────────────┘ └──────────┘ │
│ Frozen: ViT + LLM Frozen: ViT (선택적) 선택적 │
└─────────────────────────────────────────────────────────────────┘
3. 주요 모델 카탈로그
3.1 Proprietary (비공개)
| 모델 |
개발사 |
출시 |
주요 특징 |
| GPT-4V |
OpenAI |
2023.09 |
MLLM 시대의 시작, 범용 추론 |
| GPT-4o |
OpenAI |
2024.05 |
네이티브 멀티모달, 오디오 포함 |
| GPT-4o mini |
OpenAI |
2024.07 |
경량 멀티모달 |
| Gemini 1.5 Pro |
Google |
2024.02 |
1M 토큰 컨텍스트, 비디오 이해 |
| Gemini 2.0 Flash |
Google |
2024.12 |
빠른 추론, 네이티브 도구 사용 |
| Claude 3.5 Sonnet |
Anthropic |
2024.06 |
이미지 이해, 코딩 강점 |
| Claude Opus 4 |
Anthropic |
2025.05 |
최상위 멀티모달 추론 |
| Grok-2 Vision |
xAI |
2024.08 |
실시간 이미지 이해 |
3.2 Open-Weight
| 모델 |
개발사 |
파라미터 |
아키텍처 |
특징 |
| LLaVA 1.0 |
UW+MS |
7B/13B |
CLIP ViT-L + Vicuna + Linear |
MLLM 오픈소스의 시작 |
| LLaVA 1.5 |
UW |
7B/13B |
CLIP ViT-L + Vicuna + MLP |
MLP projector로 성능 점프 |
| LLaVA-NeXT |
ByteDance |
7B~110B |
SigLIP/CLIP + 다양한 LLM + AnyRes |
Dynamic Resolution 도입 |
| InternVL2 |
Shanghai AI Lab |
1B~108B |
InternViT-6B + InternLM2 + PixelShuffle |
최대 비전 인코더 |
| InternVL2.5 |
Shanghai AI Lab |
1B~78B |
InternViT-6B + InternLM2.5 |
1/10 데이터로 경쟁 성능 |
| InternVL3 |
Shanghai AI Lab |
1B~78B |
InternViT-6B + InternLM3 |
Test-time scaling, RL |
| Qwen-VL |
Alibaba |
7B |
ViT-bigG + Qwen-7B + Resampler |
중국 오픈소스 선도 |
| Qwen2-VL |
Alibaba |
2B/7B/72B |
자체 ViT + Qwen2 + Dynamic Res |
Naive Dynamic Resolution |
| Qwen2.5-VL |
Alibaba |
3B/7B/72B |
개선 ViT + Qwen2.5 |
최신 오픈 MLLM 선두 |
| Llama 3.2 Vision |
Meta |
11B/90B |
CLIP ViT-H + Llama 3.2 + Cross-Attn |
Cross-Attention 방식 |
| Phi-3-Vision |
Microsoft |
4.2B |
CLIP ViT + Phi-3 + MLP |
경량 고성능 |
| PaliGemma 2 |
Google |
3B/10B/28B |
SigLIP + Gemma 2 |
Transfer 학습 강점 |
| Molmo |
Ai2 |
7B/72B |
ViT + OLMo/Qwen |
완전 오픈 (데이터+코드+모델) |
| Cambrian-1 |
NYU |
8B/13B/34B |
다중 비전 인코더 앙상블 |
비전 인코더 연구 |
| NVLM |
NVIDIA |
72B |
InternViT-6B + Qwen2-72B |
Decoder + Cross-Attn 하이브리드 |
| Pixtral |
Mistral |
12B |
자체 ViT 400M + Mistral Nemo |
네이티브 멀티 이미지 |
| DeepSeek-VL2 |
DeepSeek |
4.5B/16B/27B |
SigLIP + DeepSeek MoE |
MoE 기반 효율적 |
| Idefics3 |
HuggingFace |
8B |
SigLIP + Llama 3.1-8B |
커뮤니티 오픈소스 |
3.3 경량 모델 (Edge/On-device)
| 모델 |
파라미터 |
특징 |
| Moondream 2 |
1.9B |
로컬 추론 최적화 |
| SmolVLM |
2B |
HuggingFace, 가벼운 멀티모달 |
| Qwen2.5-VL-3B |
3B |
모바일 배포 가능 |
| InternVL2-1B |
1B |
초경량 |
| Phi-3.5-Vision |
4.2B |
Microsoft 경량 |
| PaliGemma 2-3B |
3B |
Google 경량 |
| MiniCPM-V 2.6 |
8B |
Openbmb, 효율적 |
4. 벤치마크 & 평가
4.1 주요 벤치마크
| 벤치마크 |
평가 대상 |
특징 |
| MMMU |
대학 수준 멀티모달 이해 |
30개 학과, 전문 지식 필요 |
| MMBench |
종합 멀티모달 능력 |
20개 세부 능력 평가 |
| MME |
인지 + 지각 능력 |
14개 서브태스크 |
| SEED-Bench |
이미지/비디오 이해 |
19K 문제, 12개 차원 |
| MathVista |
수학적 시각 추론 |
그래프, 도표, 기하학 |
| HallusionBench |
Hallucination 측정 |
시각적 환각 전용 |
| POPE |
Object Hallucination |
객체 존재 여부 정확도 |
| CHAIR |
Caption Hallucination |
캡션 내 환각 객체 비율 |
| RealWorldQA |
실세계 이미지 QA |
일상 사진 기반 |
| OCRBench |
OCR 능력 |
문서, 표, 수식 |
| DocVQA |
문서 이해 QA |
문서 이미지 질의응답 |
| ChartQA |
차트 이해 |
그래프/차트 데이터 추출 |
| TextVQA |
이미지 내 텍스트 읽기 |
간판, 책 표지 등 |
| VQAv2 |
일반 시각 질의응답 |
범용 VQA |
| GQA |
구조적 시각 추론 |
Scene Graph 기반 |
| AI2D |
과학 다이어그램 이해 |
과학 교육 도표 |
| InfoVQA |
인포그래픽 이해 |
인포그래픽 QA |
| Video-MME |
비디오 이해 |
긴 비디오 포함 |
| MVBench |
비디오 이해 |
20개 시간적 태스크 |
| Humanity's Last Exam |
전문가 수준 멀티모달 |
최고 난이도 |
4.2 리더보드
| 리더보드 |
URL |
설명 |
| Open VLM Leaderboard |
huggingface.co/spaces/opencompass/open_vlm_leaderboard |
오픈 모델 종합 |
| MMMU Leaderboard |
mmmu-benchmark.github.io |
학문 멀티모달 |
| LMSYS Chatbot Arena (Vision) |
chat.lmsys.org |
인간 블라인드 평가 |
| OpenCompass |
opencompass.org.cn |
중국 종합 평가 |
5. Hallucination (멀티모달 환각)
MLLM에서 가장 심각한 문제 중 하나. 이미지에 없는 객체를 있다고 하거나, 잘못된 속성/관계를 생성하는 현상.
5.1 원인
| 원인 |
설명 |
| Language Prior Bias |
LLM의 사전지식이 시각 정보보다 우선 |
| 불충분한 Visual Grounding |
Vision token과 text token 간 attention 약함 |
| 훈련 데이터 편향 |
특정 객체 동시 출현 빈도 학습 |
| 해상도 한계 |
작은 객체나 세부 텍스트 인식 실패 |
| Token 압축 손실 |
Visual token 줄이면서 정보 손실 |
5.2 완화 기법
훈련 단계:
| 기법 |
논문/방법 |
핵심 아이디어 |
| Robust Instruction Tuning |
LRV-Instruction (ICLR 2024) |
부정적 예시 포함 데이터 |
| DPO for Hallucination |
CHAIR-DPO (BMVC 2025) |
CHAIR 점수 기반 선호 최적화 |
| RLHF-V |
RLHF-V (2024) |
세밀한 교정 피드백 |
| HDPO |
HDPO (ACL 2025 Findings) |
환각 타겟 선호 최적화 |
추론 단계 (Training-free):
| 기법 |
논문/방법 |
핵심 아이디어 |
| Attention Masking |
Seeing Far and Clearly (CVPR 2025) |
최적화된 causal masking |
| Contrastive Decoding |
VCD (2024) |
이미지 유무 출력 차이 활용 |
| Multi-Frequency Perturbation |
MFP (2025) |
주파수 영역 시각 증강 |
| Attention Re-alignment |
Nature SR (2026) |
중간 레이어 attention 가이드 |
| Self-Reflection |
Woodpecker (2024) |
생성 후 검증-수정 파이프라인 |
5.3 평가 메트릭
- CHAIR (Caption Hallucination Assessment with Image Relevance): 캡션에서 환각 객체 비율
- POPE (Polling-based Object Probing Evaluation): Yes/No 질문으로 객체 환각 측정
- HallusionBench: 시각적 환각 종합 벤치마크
- AMBER: 생성형 + 판별형 환각 동시 평가
6. 확장 방향
6.1 비디오 이해
| 모델 |
방식 |
특징 |
| Video-LLaVA |
프레임 샘플링 + 이미지 MLLM |
단순하지만 효과적 |
| LLaVA-Video |
시간적 토큰 + SlowFast |
긴 비디오 지원 |
| Gemini 1.5 Pro |
네이티브 비디오 입력 |
1M 토큰으로 긴 비디오 |
| Qwen2-VL |
Dynamic FPS 샘플링 |
적응적 프레임 수 |
| InternVL2 |
다중 프레임 인코딩 |
일관된 이미지/비디오 처리 |
핵심 과제:
- 토큰 효율성 (1분 비디오 = 수만 토큰)
- 시간적 추론 (인과관계, 순서)
- 긴 비디오 이해 (1시간+)
6.2 오디오/음성 통합
| 모델 |
모달리티 |
특징 |
| GPT-4o |
텍스트+이미지+오디오 |
네이티브 음성 입출력 |
| Gemini 2.0 |
텍스트+이미지+비디오+오디오 |
멀티모달 통합 |
| Qwen2-Audio |
텍스트+오디오 |
오디오 이해 특화 |
| SALMONN |
텍스트+이미지+오디오 |
다중 오디오 인코더 |
6.3 Any-to-Any 생성
텍스트뿐 아니라 이미지, 오디오, 비디오를 출력하는 모델:
| 모델 |
출력 모달리티 |
방법 |
| Gemini |
텍스트 + 이미지 |
네이티브 생성 |
| GPT-4o + DALL-E |
텍스트 + 이미지 |
도구 호출 |
| Emu2 |
텍스트 + 이미지 |
통합 생성 |
| Vitron |
텍스트 + 이미지 + 비디오 |
모듈형 생성 |
| CoDi-2 |
Any-to-Any |
다중 생성기 조합 |
6.4 Grounding & Referring
이미지 내 특정 영역을 지시하거나 참조하는 능력:
- Visual Grounding: 텍스트 설명 → bounding box
- Referring Expression: 영역 지정 → 설명 생성
- Segmentation: 텍스트 지시 → pixel-level 마스크
대표 모델: Kosmos-2, Shikra, Ferret, GLaMM, Qwen2-VL(bbox 출력 지원)
6.5 GUI/Agent
MLLM을 GUI 자동화 에이전트로 활용:
| 프로젝트 |
대상 |
특징 |
| CogAgent |
웹/데스크톱 |
GUI 이해 특화 학습 |
| AppAgent |
모바일 |
스마트폰 앱 조작 |
| SeeClick |
웹 |
클릭 위치 예측 |
| OS-Copilot |
OS 전체 |
범용 컴퓨터 사용 |
7. 고급 기법
7.1 Multimodal In-Context Learning (M-ICL)
- 이미지-텍스트 예시를 few-shot으로 제공
- 학습 없이 새로운 태스크 수행
- 예시 선택과 배치 순서가 성능에 큰 영향
7.2 Multimodal Chain-of-Thought (M-CoT)
- 시각 정보를 단계적으로 추론
- "이미지를 보고 → 관련 정보 추출 → 논리적 추론" 체인
- Set-of-Mark (SoM): 이미지에 마커를 오버레이하여 참조
7.3 LLM-Aided Visual Reasoning (LAVR)
- LLM이 시각 모듈을 도구로 호출하여 추론
- Visual Programming: 코드로 시각 처리 파이프라인 구성
- VisProg, ViperGPT 등
7.4 Test-Time Compute Scaling
- InternVL3에서 도입
- 추론 시 더 많은 compute를 사용하여 성능 향상
- Best-of-N, Step-wise RM, Tree Search 등
8. 핵심 논문 & 리소스
8.1 필독 논문
| 논문 |
연도 |
핵심 기여 |
링크 |
| A Survey on Multimodal Large Language Models |
2023→2024 |
가장 포괄적인 MLLM 서베이 |
arXiv:2306.13549 |
| Visual Instruction Tuning (LLaVA) |
2023 |
Visual Instruction Tuning 개념 정립 |
arXiv:2304.08485 |
| Improved Baselines with Visual Instruction Tuning (LLaVA 1.5) |
2023 |
MLP projector, 학습 데이터 개선 |
arXiv:2310.03744 |
| InternVL: Scaling Up Vision Foundation Models |
2024 |
6B 비전 인코더 |
arXiv:2312.14238 |
| InternVL2.5 |
2024 |
대규모 비전 인코더의 데이터 효율성 |
Blog |
| InternVL3 |
2025 |
Test-time scaling, RL for MLLM |
arXiv:2504.10479 |
| Qwen2-VL |
2024 |
Naive Dynamic Resolution |
arXiv:2409.12191 |
| LLaVA-NeXT |
2024 |
AnyRes, 다양한 LLM backbone |
Blog |
| NVLM: Open Frontier-Class MLLM |
2024 |
Decoder + Cross-Attn 하이브리드 |
arXiv:2409.11402 |
| Cambrian-1: A Fully Open, Vision-Centric Exploration |
2024 |
비전 인코더 체계적 비교 |
arXiv:2406.16860 |
| Understanding Multimodal LLMs (Sebastian Raschka) |
2024 |
아키텍처 직관적 설명 |
Blog |
| Comprehensive Survey and Guide to MLLMs in Vision-Language Tasks |
2024 |
응용 중심 서베이 |
arXiv:2411.06284 |
| Molmo and PixMo |
2024 |
완전 오픈 데이터+모델 |
arXiv:2409.17146 |
| DeepSeek-VL2 |
2024 |
MoE 기반 효율적 MLLM |
arXiv:2412.10302 |
8.2 Hallucination 관련 논문
8.3 GitHub 리소스
8.4 학습 리소스
| 리소스 |
유형 |
링크 |
| Sebastian Raschka - Understanding Multimodal LLMs |
블로그 |
Link |
| Cameron R. Wolfe - Vision LLMs |
블로그 |
Link |
| Trelis Research - Top Vision Models 2025 |
분석 |
Link |
| HuggingFace Open VLM Leaderboard |
리더보드 |
Link |
| MMMU Benchmark |
벤치마크 |
Link |
9. 실무 가이드
9.1 MLLM 선택 기준
| 시나리오 |
추천 모델 |
이유 |
| API 기반 최고 성능 |
GPT-4o / Gemini 2.0 |
범용 최강 |
| 온프레미스 고성능 |
InternVL3-78B / Qwen2.5-VL-72B |
오픈소스 최상위 |
| 온프레미스 효율 |
Qwen2.5-VL-7B / InternVL2.5-8B |
성능/비용 균형 |
| Edge/모바일 |
Moondream2 / SmolVLM / Qwen2.5-VL-3B |
경량 |
| 문서 이해 (OCR) |
Qwen2.5-VL / GPT-4o |
OCR 성능 최상위 |
| 비디오 이해 |
Gemini 1.5 Pro / Qwen2-VL |
긴 컨텍스트 |
| 완전 오픈 (데이터 포함) |
Molmo |
코드+데이터+모델 전부 공개 |
9.2 Fine-tuning 가이드
1. 기본 체크리스트:
[ ] OCR+LLM으로 해결 안 되는지 먼저 확인
[ ] API 모델(GPT-4o)로 few-shot 테스트
[ ] 데이터 최소 1K~10K 쌍 확보
[ ] 평가 메트릭 사전 정의
2. 추천 베이스 모델:
- GPU 1대 (24GB): Qwen2.5-VL-7B + LoRA
- GPU 2~4대: InternVL2.5-26B + LoRA
- GPU 8대+: InternVL2.5-78B / Qwen2.5-VL-72B
3. 학습 파이프라인:
Stage 1: Projector pre-training (선택, 데이터 많으면)
Stage 2: Full/LoRA fine-tuning on instruction data
Stage 3: DPO (hallucination이 심하면)
9.3 서빙 최적화
| 기법 |
효과 |
도구 |
| Quantization (AWQ/GPTQ) |
VRAM 50%+ 절감 |
AutoAWQ, auto-gptq |
| vLLM |
높은 처리량 |
vLLM (vision 지원) |
| SGLang |
빠른 추론 |
SGLang |
| TensorRT-LLM |
NVIDIA 최적화 |
TRT-LLM |
| Visual Token Pruning |
토큰 수 줄여서 속도 향상 |
FastV, PVC |
참고 문헌
- Yin, S., et al. (2024). "A Survey on Multimodal Large Language Models." National Science Review, 11(12). arXiv:2306.13549
- Liu, H., et al. (2023). "Visual Instruction Tuning." NeurIPS 2023. arXiv:2304.08485
- Chen, Z., et al. (2024). "InternVL: Scaling Up Vision Foundation Models." CVPR 2024. arXiv:2312.14238
- Wang, P., et al. (2024). "Qwen2-VL: Enhancing Vision-Language Model's Perception." arXiv:2409.12191
- Raschka, S. (2024). "Understanding Multimodal LLMs." Blog
- Dai, W., et al. (2024). "NVLM: Open Frontier-Class Multimodal LLMs." arXiv:2409.11402
- Tong, S., et al. (2024). "Cambrian-1: A Fully Open, Vision-Centric Exploration." arXiv:2406.16860
마지막 업데이트: 2026-03-28