MLLM (Multimodal Large Language Model) 종합 정리¶

개요¶

MLLM(Multimodal Large Language Model) 은 텍스트뿐 아니라 이미지, 비디오, 오디오 등 다양한 모달리티를 통합 처리하는 대규모 언어 모델이다. GPT-4V(2023)를 기점으로 본격적인 연구가 폭발했고, 2024~2026년 현재 가장 활발한 AI 연구 분야 중 하나다.

핵심 차별점: 기존 멀티모달 모델(CLIP, BLIP 등)은 특정 태스크(검색, 캡셔닝) 중심이었지만, MLLM은 LLM의 범용 추론 능력을 기반으로 다중 모달리티에 걸친 범용 태스크 수행이 가능하다.

구분	기존 멀티모달	MLLM
태스크	고정 (검색, 캡셔닝)	범용 (대화, 추론, 생성)
추론 능력	제한적	LLM 수준의 CoT, ICL
입력	이미지+텍스트	이미지+비디오+오디오+텍스트
출력	텍스트/임베딩	텍스트 (일부 모델은 이미지도)
Emergent 능력	없음	OCR-free 추론, 스토리 생성 등

1. 아키텍처¶

MLLM의 아키텍처는 크게 3개 모듈로 구성된다:

[입력 이미지/비디오] → [Vision Encoder] → [Connector/Projector] → [LLM Backbone] → [텍스트 출력]
                                                                        ↑
                                                              [텍스트 입력 (토큰)]

1.1 Vision Encoder¶

이미지를 고차원 feature로 변환하는 모듈. 대부분 사전학습된 ViT(Vision Transformer) 를 사용한다.

인코더	파라미터	특징	사용 모델
CLIP ViT-L/14	304M	텍스트-이미지 정렬 학습	LLaVA 1.0/1.5
SigLIP-SO400M	400M	Sigmoid 기반 contrastive	LLaVA-NeXT, SmolVLM
EVA-CLIP ViT-G	1B	더 큰 스케일의 CLIP	InternVL 초기
InternViT-6B	6B	최대 규모 vision encoder	InternVL2/2.5/3
ViT (자체 학습)	600M	자체 pre-training	Qwen2-VL
NaViT	-	Native Resolution ViT	PaLI-X, Gemini

설계 포인트:

해상도 처리: 고정 해상도(336px) vs Dynamic Resolution(AnyRes)
- AnyRes: 이미지를 여러 타일로 분할 후 개별 인코딩 (LLaVA-NeXT, InternVL2)
- Qwen2-VL: Naive Dynamic Resolution - 임의 해상도를 직접 처리
Frozen vs Fine-tuned: 초기에는 frozen이 주류였으나, InternVL2.5 이후 fine-tuning이 성능 향상에 기여함을 확인
큰 인코더의 이점: InternVL2.5 연구에서 6B vision encoder가 600M 대비 1/10 학습 데이터로 더 좋은 성능 달성

1.2 Connector (Projector)¶

Vision Encoder의 출력 차원을 LLM 임베딩 차원에 맞추는 모듈.

타입	구조	장점	단점	사용 모델
Linear Projection	단일 Linear Layer	단순, 빠름	표현력 제한	LLaVA 1.0
MLP (2-layer)	Linear→GELU→Linear	비선형성 추가	-	LLaVA 1.5/NeXT
Q-Former	Cross-Attention + 학습 쿼리	토큰 수 압축	학습 복잡	BLIP-2, InstructBLIP
Perceiver Resampler	Cross-Attention 기반	유연한 토큰 수 조절	정보 손실 가능	Flamingo, Qwen-VL
C-Abstractor	Convolution 기반	공간 정보 보존	-	Honeybee
Pixel Shuffle	해상도 축소 매핑	토큰 수 효율적 감소	-	InternVL2

토큰 수 문제: 고해상도 이미지를 ViT로 인코딩하면 수백~수천 개의 visual token이 생성되어 LLM 컨텍스트를 소비한다. 이를 줄이기 위한 Visual Token Compression 연구가 활발하다:

PVC (Progressive Visual Token Compression, CVPR 2025)
Pixel Shuffle + MLP (InternVL2)
Dynamic Resolution 기반 적응적 토큰 할당 (Qwen2-VL)

1.3 LLM Backbone¶

모든 모달리티의 정보를 통합 처리하고 텍스트를 생성하는 핵심 모듈.

LLM	파라미터	사용 MLLM
Vicuna-7B/13B	7B/13B	LLaVA 1.0/1.5
LLaMA 3.x	8B/70B	LLaVA-NeXT
Qwen2/2.5	2B~72B	Qwen2-VL, Qwen2.5-VL
InternLM2/2.5	1.8B~20B	InternVL2
Phi-3/3.5	3.8B/4.2B	Phi-3-Vision
Mistral-7B	7B	IDEFICS2
Gemma 2	2B/9B	PaliGemma 2

1.4 아키텍처 패턴 비교¶

Method A: Unified Embedding Decoder (주류)¶

Vision token과 Text token을 동일 시퀀스로 concat하여 디코더에 입력
LLM 구조 변경 불필요
대표: LLaVA, Qwen-VL, InternVL, Gemini

[IMG_1] [IMG_2] ... [IMG_N] [텍스트 토큰들] → Decoder-only LLM → 출력

Method B: Cross-Modality Attention¶

LLM 내부에 Cross-Attention 레이어를 삽입하여 visual feature 참조
LLM 구조 수정 필요
대표: Flamingo, IDEFICS, NVLM-X

LLM Self-Attention → Cross-Attention(visual features) → FFN → ...

Method C: Hybrid (A+B)¶

Decoder와 Cross-Attention을 모두 사용
대표: NVLM (D+X 모두 학습)

실무 선택 기준:

상황	추천
빠른 프로토타이핑	Method A (LLaVA 스타일)
긴 비디오/다중 이미지	Method B (토큰 효율적)
최고 성능 추구	Method C (NVLM 스타일)

2. 훈련 전략¶

MLLM 훈련은 보통 2~3단계로 진행된다:

Stage 1: Pre-training (Alignment)¶

목적: Vision Encoder 출력과 LLM 임베딩 공간 정렬
데이터: 대규모 이미지-텍스트 쌍 (CC3M, LAION, ShareGPT4V 등)
학습 대상: Connector(Projector)만 학습, Vision Encoder + LLM은 frozen
데이터 규모: 수백만 ~ 수십억 쌍

Stage 2: Instruction Tuning (SFT)¶

목적: 멀티모달 지시 따르기 능력 학습
데이터: Visual Instruction Tuning 데이터
- LLaVA-Instruct-150K/665K
- ShareGPT4V
- ALLaVA (Allava-Instruct-VFLAN-4V)
- 자체 생성 데이터 (GPT-4V로 생성)
학습 대상: Connector + LLM (full fine-tuning 또는 LoRA)
핵심: 데이터 품질 > 데이터 양

Stage 3: Preference Optimization (선택)¶

목적: Hallucination 감소, 인간 선호 정렬
방법: DPO, RLHF, RLAIF
데이터: 선호 쌍 데이터 (chosen/rejected)
대표: RLHF-V, LLaVA-RLHF, CHAIR-DPO

┌─────────────────────────────────────────────────────────────────┐
│  Stage 1: Pre-training         Stage 2: SFT         Stage 3    │
│  ┌──────────────────┐    ┌──────────────────┐    ┌──────────┐  │
│  │ Image-Text Pairs │    │ Visual Instruct  │    │ DPO/RLHF │  │
│  │ (수백만~수십억)  │ →  │ (수십만~수백만)  │ →  │ (수만)   │  │
│  │ Projector만 학습 │    │ Proj + LLM 학습  │    │ 전체 튜닝│  │
│  └──────────────────┘    └──────────────────┘    └──────────┘  │
│  Frozen: ViT + LLM       Frozen: ViT (선택적)    선택적       │
└─────────────────────────────────────────────────────────────────┘

3. 주요 모델 카탈로그¶

3.1 Proprietary (비공개)¶

모델	개발사	출시	주요 특징
GPT-4V	OpenAI	2023.09	MLLM 시대의 시작, 범용 추론
GPT-4o	OpenAI	2024.05	네이티브 멀티모달, 오디오 포함
GPT-4o mini	OpenAI	2024.07	경량 멀티모달
Gemini 1.5 Pro	Google	2024.02	1M 토큰 컨텍스트, 비디오 이해
Gemini 2.0 Flash	Google	2024.12	빠른 추론, 네이티브 도구 사용
Claude 3.5 Sonnet	Anthropic	2024.06	이미지 이해, 코딩 강점
Claude Opus 4	Anthropic	2025.05	최상위 멀티모달 추론
Grok-2 Vision	xAI	2024.08	실시간 이미지 이해

3.2 Open-Weight¶

모델	개발사	파라미터	아키텍처	특징
LLaVA 1.0	UW+MS	7B/13B	CLIP ViT-L + Vicuna + Linear	MLLM 오픈소스의 시작
LLaVA 1.5	UW	7B/13B	CLIP ViT-L + Vicuna + MLP	MLP projector로 성능 점프
LLaVA-NeXT	ByteDance	7B~110B	SigLIP/CLIP + 다양한 LLM + AnyRes	Dynamic Resolution 도입
InternVL2	Shanghai AI Lab	1B~108B	InternViT-6B + InternLM2 + PixelShuffle	최대 비전 인코더
InternVL2.5	Shanghai AI Lab	1B~78B	InternViT-6B + InternLM2.5	1/10 데이터로 경쟁 성능
InternVL3	Shanghai AI Lab	1B~78B	InternViT-6B + InternLM3	Test-time scaling, RL
Qwen-VL	Alibaba	7B	ViT-bigG + Qwen-7B + Resampler	중국 오픈소스 선도
Qwen2-VL	Alibaba	2B/7B/72B	자체 ViT + Qwen2 + Dynamic Res	Naive Dynamic Resolution
Qwen2.5-VL	Alibaba	3B/7B/72B	개선 ViT + Qwen2.5	최신 오픈 MLLM 선두
Llama 3.2 Vision	Meta	11B/90B	CLIP ViT-H + Llama 3.2 + Cross-Attn	Cross-Attention 방식
Phi-3-Vision	Microsoft	4.2B	CLIP ViT + Phi-3 + MLP	경량 고성능
PaliGemma 2	Google	3B/10B/28B	SigLIP + Gemma 2	Transfer 학습 강점
Molmo	Ai2	7B/72B	ViT + OLMo/Qwen	완전 오픈 (데이터+코드+모델)
Cambrian-1	NYU	8B/13B/34B	다중 비전 인코더 앙상블	비전 인코더 연구
NVLM	NVIDIA	72B	InternViT-6B + Qwen2-72B	Decoder + Cross-Attn 하이브리드
Pixtral	Mistral	12B	자체 ViT 400M + Mistral Nemo	네이티브 멀티 이미지
DeepSeek-VL2	DeepSeek	4.5B/16B/27B	SigLIP + DeepSeek MoE	MoE 기반 효율적
Idefics3	HuggingFace	8B	SigLIP + Llama 3.1-8B	커뮤니티 오픈소스

3.3 경량 모델 (Edge/On-device)¶

모델	파라미터	특징
Moondream 2	1.9B	로컬 추론 최적화
SmolVLM	2B	HuggingFace, 가벼운 멀티모달
Qwen2.5-VL-3B	3B	모바일 배포 가능
InternVL2-1B	1B	초경량
Phi-3.5-Vision	4.2B	Microsoft 경량
PaliGemma 2-3B	3B	Google 경량
MiniCPM-V 2.6	8B	Openbmb, 효율적

4. 벤치마크 & 평가¶

4.1 주요 벤치마크¶

벤치마크	평가 대상	특징
MMMU	대학 수준 멀티모달 이해	30개 학과, 전문 지식 필요
MMBench	종합 멀티모달 능력	20개 세부 능력 평가
MME	인지 + 지각 능력	14개 서브태스크
SEED-Bench	이미지/비디오 이해	19K 문제, 12개 차원
MathVista	수학적 시각 추론	그래프, 도표, 기하학
HallusionBench	Hallucination 측정	시각적 환각 전용
POPE	Object Hallucination	객체 존재 여부 정확도
CHAIR	Caption Hallucination	캡션 내 환각 객체 비율
RealWorldQA	실세계 이미지 QA	일상 사진 기반
OCRBench	OCR 능력	문서, 표, 수식
DocVQA	문서 이해 QA	문서 이미지 질의응답
ChartQA	차트 이해	그래프/차트 데이터 추출
TextVQA	이미지 내 텍스트 읽기	간판, 책 표지 등
VQAv2	일반 시각 질의응답	범용 VQA
GQA	구조적 시각 추론	Scene Graph 기반
AI2D	과학 다이어그램 이해	과학 교육 도표
InfoVQA	인포그래픽 이해	인포그래픽 QA
Video-MME	비디오 이해	긴 비디오 포함
MVBench	비디오 이해	20개 시간적 태스크
Humanity's Last Exam	전문가 수준 멀티모달	최고 난이도

4.2 리더보드¶

리더보드	URL	설명
Open VLM Leaderboard	huggingface.co/spaces/opencompass/open_vlm_leaderboard	오픈 모델 종합
MMMU Leaderboard	mmmu-benchmark.github.io	학문 멀티모달
LMSYS Chatbot Arena (Vision)	chat.lmsys.org	인간 블라인드 평가
OpenCompass	opencompass.org.cn	중국 종합 평가

5. Hallucination (멀티모달 환각)¶

MLLM에서 가장 심각한 문제 중 하나. 이미지에 없는 객체를 있다고 하거나, 잘못된 속성/관계를 생성하는 현상.

5.1 원인¶

원인	설명
Language Prior Bias	LLM의 사전지식이 시각 정보보다 우선
불충분한 Visual Grounding	Vision token과 text token 간 attention 약함
훈련 데이터 편향	특정 객체 동시 출현 빈도 학습
해상도 한계	작은 객체나 세부 텍스트 인식 실패
Token 압축 손실	Visual token 줄이면서 정보 손실

5.2 완화 기법¶

훈련 단계:

기법	논문/방법	핵심 아이디어
Robust Instruction Tuning	LRV-Instruction (ICLR 2024)	부정적 예시 포함 데이터
DPO for Hallucination	CHAIR-DPO (BMVC 2025)	CHAIR 점수 기반 선호 최적화
RLHF-V	RLHF-V (2024)	세밀한 교정 피드백
HDPO	HDPO (ACL 2025 Findings)	환각 타겟 선호 최적화

추론 단계 (Training-free):

기법	논문/방법	핵심 아이디어
Attention Masking	Seeing Far and Clearly (CVPR 2025)	최적화된 causal masking
Contrastive Decoding	VCD (2024)	이미지 유무 출력 차이 활용
Multi-Frequency Perturbation	MFP (2025)	주파수 영역 시각 증강
Attention Re-alignment	Nature SR (2026)	중간 레이어 attention 가이드
Self-Reflection	Woodpecker (2024)	생성 후 검증-수정 파이프라인

5.3 평가 메트릭¶

CHAIR (Caption Hallucination Assessment with Image Relevance): 캡션에서 환각 객체 비율
POPE (Polling-based Object Probing Evaluation): Yes/No 질문으로 객체 환각 측정
HallusionBench: 시각적 환각 종합 벤치마크
AMBER: 생성형 + 판별형 환각 동시 평가

6. 확장 방향¶

6.1 비디오 이해¶

모델	방식	특징
Video-LLaVA	프레임 샘플링 + 이미지 MLLM	단순하지만 효과적
LLaVA-Video	시간적 토큰 + SlowFast	긴 비디오 지원
Gemini 1.5 Pro	네이티브 비디오 입력	1M 토큰으로 긴 비디오
Qwen2-VL	Dynamic FPS 샘플링	적응적 프레임 수
InternVL2	다중 프레임 인코딩	일관된 이미지/비디오 처리

핵심 과제:

토큰 효율성 (1분 비디오 = 수만 토큰)
시간적 추론 (인과관계, 순서)
긴 비디오 이해 (1시간+)

6.2 오디오/음성 통합¶

모델	모달리티	특징
GPT-4o	텍스트+이미지+오디오	네이티브 음성 입출력
Gemini 2.0	텍스트+이미지+비디오+오디오	멀티모달 통합
Qwen2-Audio	텍스트+오디오	오디오 이해 특화
SALMONN	텍스트+이미지+오디오	다중 오디오 인코더

6.3 Any-to-Any 생성¶

텍스트뿐 아니라 이미지, 오디오, 비디오를 출력하는 모델:

모델	출력 모달리티	방법
Gemini	텍스트 + 이미지	네이티브 생성
GPT-4o + DALL-E	텍스트 + 이미지	도구 호출
Emu2	텍스트 + 이미지	통합 생성
Vitron	텍스트 + 이미지 + 비디오	모듈형 생성
CoDi-2	Any-to-Any	다중 생성기 조합

6.4 Grounding & Referring¶

이미지 내 특정 영역을 지시하거나 참조하는 능력:

Visual Grounding: 텍스트 설명 → bounding box
Referring Expression: 영역 지정 → 설명 생성
Segmentation: 텍스트 지시 → pixel-level 마스크

대표 모델: Kosmos-2, Shikra, Ferret, GLaMM, Qwen2-VL(bbox 출력 지원)

6.5 GUI/Agent¶

MLLM을 GUI 자동화 에이전트로 활용:

프로젝트	대상	특징
CogAgent	웹/데스크톱	GUI 이해 특화 학습
AppAgent	모바일	스마트폰 앱 조작
SeeClick	웹	클릭 위치 예측
OS-Copilot	OS 전체	범용 컴퓨터 사용

7. 고급 기법¶

7.1 Multimodal In-Context Learning (M-ICL)¶

이미지-텍스트 예시를 few-shot으로 제공
학습 없이 새로운 태스크 수행
예시 선택과 배치 순서가 성능에 큰 영향

7.2 Multimodal Chain-of-Thought (M-CoT)¶

시각 정보를 단계적으로 추론
"이미지를 보고 → 관련 정보 추출 → 논리적 추론" 체인
Set-of-Mark (SoM): 이미지에 마커를 오버레이하여 참조

7.3 LLM-Aided Visual Reasoning (LAVR)¶

LLM이 시각 모듈을 도구로 호출하여 추론
Visual Programming: 코드로 시각 처리 파이프라인 구성
VisProg, ViperGPT 등

7.4 Test-Time Compute Scaling¶

InternVL3에서 도입
추론 시 더 많은 compute를 사용하여 성능 향상
Best-of-N, Step-wise RM, Tree Search 등

8. 핵심 논문 & 리소스¶

8.1 필독 논문¶

논문	연도	핵심 기여	링크
A Survey on Multimodal Large Language Models	2023→2024	가장 포괄적인 MLLM 서베이	arXiv:2306.13549
Visual Instruction Tuning (LLaVA)	2023	Visual Instruction Tuning 개념 정립	arXiv:2304.08485
Improved Baselines with Visual Instruction Tuning (LLaVA 1.5)	2023	MLP projector, 학습 데이터 개선	arXiv:2310.03744
InternVL: Scaling Up Vision Foundation Models	2024	6B 비전 인코더	arXiv:2312.14238
InternVL2.5	2024	대규모 비전 인코더의 데이터 효율성	Blog
InternVL3	2025	Test-time scaling, RL for MLLM	arXiv:2504.10479
Qwen2-VL	2024	Naive Dynamic Resolution	arXiv:2409.12191
LLaVA-NeXT	2024	AnyRes, 다양한 LLM backbone	Blog
NVLM: Open Frontier-Class MLLM	2024	Decoder + Cross-Attn 하이브리드	arXiv:2409.11402
Cambrian-1: A Fully Open, Vision-Centric Exploration	2024	비전 인코더 체계적 비교	arXiv:2406.16860
Understanding Multimodal LLMs (Sebastian Raschka)	2024	아키텍처 직관적 설명	Blog
Comprehensive Survey and Guide to MLLMs in Vision-Language Tasks	2024	응용 중심 서베이	arXiv:2411.06284
Molmo and PixMo	2024	완전 오픈 데이터+모델	arXiv:2409.17146
DeepSeek-VL2	2024	MoE 기반 효율적 MLLM	arXiv:2412.10302

8.2 Hallucination 관련 논문¶

논문	연도	링크
Mitigating Hallucination via Robust Instruction Tuning	2023	arXiv:2306.14565
RLHF-V: Towards Trustworthy MLLMs	2024	arXiv:2312.00849
Seeing Far and Clearly (CVPR 2025)	2025	CVPR 2025
CHAIR-DPO (BMVC 2025)	2025	BMVC 2025

8.3 GitHub 리소스¶

리포지토리	Stars	설명
BradyFU/Awesome-Multimodal-Large-Language-Models	14K+	가장 포괄적인 MLLM 논문 목록 (NSR 논문 동반)
gokayfem/awesome-vlm-architectures	2K+	VLM 아키텍처 시각화 비교
showlab/Awesome-MLLM-Hallucination	1K+	MLLM Hallucination 논문 큐레이션
NishilBalar/Awesome-LVLM-Hallucination	-	LVLM Hallucination 최신 논문
Czi24/Awesome-MLLM-LLM-Colab	-	Google Colab에서 MLLM 실행 노트북
alopatenko/LLMEvaluation	-	멀티모달 벤치마크 종합 목록
haotian-liu/LLaVA	20K+	LLaVA 공식 구현
OpenGVLab/InternVL	8K+	InternVL 시리즈 공식
QwenLM/Qwen2-VL	5K+	Qwen2-VL 공식

8.4 학습 리소스¶

리소스	유형	링크
Sebastian Raschka - Understanding Multimodal LLMs	블로그	Link
Cameron R. Wolfe - Vision LLMs	블로그	Link
Trelis Research - Top Vision Models 2025	분석	Link
HuggingFace Open VLM Leaderboard	리더보드	Link
MMMU Benchmark	벤치마크	Link

9. 실무 가이드¶

9.1 MLLM 선택 기준¶

시나리오	추천 모델	이유
API 기반 최고 성능	GPT-4o / Gemini 2.0	범용 최강
온프레미스 고성능	InternVL3-78B / Qwen2.5-VL-72B	오픈소스 최상위
온프레미스 효율	Qwen2.5-VL-7B / InternVL2.5-8B	성능/비용 균형
Edge/모바일	Moondream2 / SmolVLM / Qwen2.5-VL-3B	경량
문서 이해 (OCR)	Qwen2.5-VL / GPT-4o	OCR 성능 최상위
비디오 이해	Gemini 1.5 Pro / Qwen2-VL	긴 컨텍스트
완전 오픈 (데이터 포함)	Molmo	코드+데이터+모델 전부 공개

9.2 Fine-tuning 가이드¶

1. 기본 체크리스트:
   [ ] OCR+LLM으로 해결 안 되는지 먼저 확인
   [ ] API 모델(GPT-4o)로 few-shot 테스트
   [ ] 데이터 최소 1K~10K 쌍 확보
   [ ] 평가 메트릭 사전 정의

2. 추천 베이스 모델:
   - GPU 1대 (24GB): Qwen2.5-VL-7B + LoRA
   - GPU 2~4대: InternVL2.5-26B + LoRA
   - GPU 8대+: InternVL2.5-78B / Qwen2.5-VL-72B

3. 학습 파이프라인:
   Stage 1: Projector pre-training (선택, 데이터 많으면)
   Stage 2: Full/LoRA fine-tuning on instruction data
   Stage 3: DPO (hallucination이 심하면)

9.3 서빙 최적화¶

기법	효과	도구
Quantization (AWQ/GPTQ)	VRAM 50%+ 절감	AutoAWQ, auto-gptq
vLLM	높은 처리량	vLLM (vision 지원)
SGLang	빠른 추론	SGLang
TensorRT-LLM	NVIDIA 최적화	TRT-LLM
Visual Token Pruning	토큰 수 줄여서 속도 향상	FastV, PVC

참고 문헌¶

Yin, S., et al. (2024). "A Survey on Multimodal Large Language Models." National Science Review, 11(12). arXiv:2306.13549
Liu, H., et al. (2023). "Visual Instruction Tuning." NeurIPS 2023. arXiv:2304.08485
Chen, Z., et al. (2024). "InternVL: Scaling Up Vision Foundation Models." CVPR 2024. arXiv:2312.14238
Wang, P., et al. (2024). "Qwen2-VL: Enhancing Vision-Language Model's Perception." arXiv:2409.12191
Raschka, S. (2024). "Understanding Multimodal LLMs." Blog
Dai, W., et al. (2024). "NVLM: Open Frontier-Class Multimodal LLMs." arXiv:2409.11402
Tong, S., et al. (2024). "Cambrian-1: A Fully Open, Vision-Centric Exploration." arXiv:2406.16860

마지막 업데이트: 2026-03-28