콘텐츠로 이동
Data Prep
상세

MLLM (Multimodal Large Language Model) 종합 정리


개요

MLLM(Multimodal Large Language Model) 은 텍스트뿐 아니라 이미지, 비디오, 오디오 등 다양한 모달리티를 통합 처리하는 대규모 언어 모델이다. GPT-4V(2023)를 기점으로 본격적인 연구가 폭발했고, 2024~2026년 현재 가장 활발한 AI 연구 분야 중 하나다.

핵심 차별점: 기존 멀티모달 모델(CLIP, BLIP 등)은 특정 태스크(검색, 캡셔닝) 중심이었지만, MLLM은 LLM의 범용 추론 능력을 기반으로 다중 모달리티에 걸친 범용 태스크 수행이 가능하다.

구분 기존 멀티모달 MLLM
태스크 고정 (검색, 캡셔닝) 범용 (대화, 추론, 생성)
추론 능력 제한적 LLM 수준의 CoT, ICL
입력 이미지+텍스트 이미지+비디오+오디오+텍스트
출력 텍스트/임베딩 텍스트 (일부 모델은 이미지도)
Emergent 능력 없음 OCR-free 추론, 스토리 생성 등

1. 아키텍처

MLLM의 아키텍처는 크게 3개 모듈로 구성된다:

[입력 이미지/비디오] → [Vision Encoder] → [Connector/Projector] → [LLM Backbone] → [텍스트 출력]
                                                              [텍스트 입력 (토큰)]

1.1 Vision Encoder

이미지를 고차원 feature로 변환하는 모듈. 대부분 사전학습된 ViT(Vision Transformer) 를 사용한다.

인코더 파라미터 특징 사용 모델
CLIP ViT-L/14 304M 텍스트-이미지 정렬 학습 LLaVA 1.0/1.5
SigLIP-SO400M 400M Sigmoid 기반 contrastive LLaVA-NeXT, SmolVLM
EVA-CLIP ViT-G 1B 더 큰 스케일의 CLIP InternVL 초기
InternViT-6B 6B 최대 규모 vision encoder InternVL2/2.5/3
ViT (자체 학습) 600M 자체 pre-training Qwen2-VL
NaViT - Native Resolution ViT PaLI-X, Gemini

설계 포인트:

  • 해상도 처리: 고정 해상도(336px) vs Dynamic Resolution(AnyRes)
    • AnyRes: 이미지를 여러 타일로 분할 후 개별 인코딩 (LLaVA-NeXT, InternVL2)
    • Qwen2-VL: Naive Dynamic Resolution - 임의 해상도를 직접 처리
  • Frozen vs Fine-tuned: 초기에는 frozen이 주류였으나, InternVL2.5 이후 fine-tuning이 성능 향상에 기여함을 확인
  • 큰 인코더의 이점: InternVL2.5 연구에서 6B vision encoder가 600M 대비 1/10 학습 데이터로 더 좋은 성능 달성

1.2 Connector (Projector)

Vision Encoder의 출력 차원을 LLM 임베딩 차원에 맞추는 모듈.

타입 구조 장점 단점 사용 모델
Linear Projection 단일 Linear Layer 단순, 빠름 표현력 제한 LLaVA 1.0
MLP (2-layer) Linear→GELU→Linear 비선형성 추가 - LLaVA 1.5/NeXT
Q-Former Cross-Attention + 학습 쿼리 토큰 수 압축 학습 복잡 BLIP-2, InstructBLIP
Perceiver Resampler Cross-Attention 기반 유연한 토큰 수 조절 정보 손실 가능 Flamingo, Qwen-VL
C-Abstractor Convolution 기반 공간 정보 보존 - Honeybee
Pixel Shuffle 해상도 축소 매핑 토큰 수 효율적 감소 - InternVL2

토큰 수 문제: 고해상도 이미지를 ViT로 인코딩하면 수백~수천 개의 visual token이 생성되어 LLM 컨텍스트를 소비한다. 이를 줄이기 위한 Visual Token Compression 연구가 활발하다:

  • PVC (Progressive Visual Token Compression, CVPR 2025)
  • Pixel Shuffle + MLP (InternVL2)
  • Dynamic Resolution 기반 적응적 토큰 할당 (Qwen2-VL)

1.3 LLM Backbone

모든 모달리티의 정보를 통합 처리하고 텍스트를 생성하는 핵심 모듈.

LLM 파라미터 사용 MLLM
Vicuna-7B/13B 7B/13B LLaVA 1.0/1.5
LLaMA 3.x 8B/70B LLaVA-NeXT
Qwen2/2.5 2B~72B Qwen2-VL, Qwen2.5-VL
InternLM2/2.5 1.8B~20B InternVL2
Phi-3/3.5 3.8B/4.2B Phi-3-Vision
Mistral-7B 7B IDEFICS2
Gemma 2 2B/9B PaliGemma 2

1.4 아키텍처 패턴 비교

Method A: Unified Embedding Decoder (주류)

  • Vision token과 Text token을 동일 시퀀스로 concat하여 디코더에 입력
  • LLM 구조 변경 불필요
  • 대표: LLaVA, Qwen-VL, InternVL, Gemini
[IMG_1] [IMG_2] ... [IMG_N] [텍스트 토큰들] → Decoder-only LLM → 출력

Method B: Cross-Modality Attention

  • LLM 내부에 Cross-Attention 레이어를 삽입하여 visual feature 참조
  • LLM 구조 수정 필요
  • 대표: Flamingo, IDEFICS, NVLM-X
LLM Self-Attention → Cross-Attention(visual features) → FFN → ...

Method C: Hybrid (A+B)

  • Decoder와 Cross-Attention을 모두 사용
  • 대표: NVLM (D+X 모두 학습)

실무 선택 기준:

상황 추천
빠른 프로토타이핑 Method A (LLaVA 스타일)
긴 비디오/다중 이미지 Method B (토큰 효율적)
최고 성능 추구 Method C (NVLM 스타일)

2. 훈련 전략

MLLM 훈련은 보통 2~3단계로 진행된다:

Stage 1: Pre-training (Alignment)

  • 목적: Vision Encoder 출력과 LLM 임베딩 공간 정렬
  • 데이터: 대규모 이미지-텍스트 쌍 (CC3M, LAION, ShareGPT4V 등)
  • 학습 대상: Connector(Projector)만 학습, Vision Encoder + LLM은 frozen
  • 데이터 규모: 수백만 ~ 수십억 쌍

Stage 2: Instruction Tuning (SFT)

  • 목적: 멀티모달 지시 따르기 능력 학습
  • 데이터: Visual Instruction Tuning 데이터
    • LLaVA-Instruct-150K/665K
    • ShareGPT4V
    • ALLaVA (Allava-Instruct-VFLAN-4V)
    • 자체 생성 데이터 (GPT-4V로 생성)
  • 학습 대상: Connector + LLM (full fine-tuning 또는 LoRA)
  • 핵심: 데이터 품질 > 데이터 양

Stage 3: Preference Optimization (선택)

  • 목적: Hallucination 감소, 인간 선호 정렬
  • 방법: DPO, RLHF, RLAIF
  • 데이터: 선호 쌍 데이터 (chosen/rejected)
  • 대표: RLHF-V, LLaVA-RLHF, CHAIR-DPO
┌─────────────────────────────────────────────────────────────────┐
│  Stage 1: Pre-training         Stage 2: SFT         Stage 3    │
│  ┌──────────────────┐    ┌──────────────────┐    ┌──────────┐  │
│  │ Image-Text Pairs │    │ Visual Instruct  │    │ DPO/RLHF │  │
│  │ (수백만~수십억)  │ →  │ (수십만~수백만)  │ →  │ (수만)   │  │
│  │ Projector만 학습 │    │ Proj + LLM 학습  │    │ 전체 튜닝│  │
│  └──────────────────┘    └──────────────────┘    └──────────┘  │
│  Frozen: ViT + LLM       Frozen: ViT (선택적)    선택적       │
└─────────────────────────────────────────────────────────────────┘

3. 주요 모델 카탈로그

3.1 Proprietary (비공개)

모델 개발사 출시 주요 특징
GPT-4V OpenAI 2023.09 MLLM 시대의 시작, 범용 추론
GPT-4o OpenAI 2024.05 네이티브 멀티모달, 오디오 포함
GPT-4o mini OpenAI 2024.07 경량 멀티모달
Gemini 1.5 Pro Google 2024.02 1M 토큰 컨텍스트, 비디오 이해
Gemini 2.0 Flash Google 2024.12 빠른 추론, 네이티브 도구 사용
Claude 3.5 Sonnet Anthropic 2024.06 이미지 이해, 코딩 강점
Claude Opus 4 Anthropic 2025.05 최상위 멀티모달 추론
Grok-2 Vision xAI 2024.08 실시간 이미지 이해

3.2 Open-Weight

모델 개발사 파라미터 아키텍처 특징
LLaVA 1.0 UW+MS 7B/13B CLIP ViT-L + Vicuna + Linear MLLM 오픈소스의 시작
LLaVA 1.5 UW 7B/13B CLIP ViT-L + Vicuna + MLP MLP projector로 성능 점프
LLaVA-NeXT ByteDance 7B~110B SigLIP/CLIP + 다양한 LLM + AnyRes Dynamic Resolution 도입
InternVL2 Shanghai AI Lab 1B~108B InternViT-6B + InternLM2 + PixelShuffle 최대 비전 인코더
InternVL2.5 Shanghai AI Lab 1B~78B InternViT-6B + InternLM2.5 1/10 데이터로 경쟁 성능
InternVL3 Shanghai AI Lab 1B~78B InternViT-6B + InternLM3 Test-time scaling, RL
Qwen-VL Alibaba 7B ViT-bigG + Qwen-7B + Resampler 중국 오픈소스 선도
Qwen2-VL Alibaba 2B/7B/72B 자체 ViT + Qwen2 + Dynamic Res Naive Dynamic Resolution
Qwen2.5-VL Alibaba 3B/7B/72B 개선 ViT + Qwen2.5 최신 오픈 MLLM 선두
Llama 3.2 Vision Meta 11B/90B CLIP ViT-H + Llama 3.2 + Cross-Attn Cross-Attention 방식
Phi-3-Vision Microsoft 4.2B CLIP ViT + Phi-3 + MLP 경량 고성능
PaliGemma 2 Google 3B/10B/28B SigLIP + Gemma 2 Transfer 학습 강점
Molmo Ai2 7B/72B ViT + OLMo/Qwen 완전 오픈 (데이터+코드+모델)
Cambrian-1 NYU 8B/13B/34B 다중 비전 인코더 앙상블 비전 인코더 연구
NVLM NVIDIA 72B InternViT-6B + Qwen2-72B Decoder + Cross-Attn 하이브리드
Pixtral Mistral 12B 자체 ViT 400M + Mistral Nemo 네이티브 멀티 이미지
DeepSeek-VL2 DeepSeek 4.5B/16B/27B SigLIP + DeepSeek MoE MoE 기반 효율적
Idefics3 HuggingFace 8B SigLIP + Llama 3.1-8B 커뮤니티 오픈소스

3.3 경량 모델 (Edge/On-device)

모델 파라미터 특징
Moondream 2 1.9B 로컬 추론 최적화
SmolVLM 2B HuggingFace, 가벼운 멀티모달
Qwen2.5-VL-3B 3B 모바일 배포 가능
InternVL2-1B 1B 초경량
Phi-3.5-Vision 4.2B Microsoft 경량
PaliGemma 2-3B 3B Google 경량
MiniCPM-V 2.6 8B Openbmb, 효율적

4. 벤치마크 & 평가

4.1 주요 벤치마크

벤치마크 평가 대상 특징
MMMU 대학 수준 멀티모달 이해 30개 학과, 전문 지식 필요
MMBench 종합 멀티모달 능력 20개 세부 능력 평가
MME 인지 + 지각 능력 14개 서브태스크
SEED-Bench 이미지/비디오 이해 19K 문제, 12개 차원
MathVista 수학적 시각 추론 그래프, 도표, 기하학
HallusionBench Hallucination 측정 시각적 환각 전용
POPE Object Hallucination 객체 존재 여부 정확도
CHAIR Caption Hallucination 캡션 내 환각 객체 비율
RealWorldQA 실세계 이미지 QA 일상 사진 기반
OCRBench OCR 능력 문서, 표, 수식
DocVQA 문서 이해 QA 문서 이미지 질의응답
ChartQA 차트 이해 그래프/차트 데이터 추출
TextVQA 이미지 내 텍스트 읽기 간판, 책 표지 등
VQAv2 일반 시각 질의응답 범용 VQA
GQA 구조적 시각 추론 Scene Graph 기반
AI2D 과학 다이어그램 이해 과학 교육 도표
InfoVQA 인포그래픽 이해 인포그래픽 QA
Video-MME 비디오 이해 긴 비디오 포함
MVBench 비디오 이해 20개 시간적 태스크
Humanity's Last Exam 전문가 수준 멀티모달 최고 난이도

4.2 리더보드

리더보드 URL 설명
Open VLM Leaderboard huggingface.co/spaces/opencompass/open_vlm_leaderboard 오픈 모델 종합
MMMU Leaderboard mmmu-benchmark.github.io 학문 멀티모달
LMSYS Chatbot Arena (Vision) chat.lmsys.org 인간 블라인드 평가
OpenCompass opencompass.org.cn 중국 종합 평가

5. Hallucination (멀티모달 환각)

MLLM에서 가장 심각한 문제 중 하나. 이미지에 없는 객체를 있다고 하거나, 잘못된 속성/관계를 생성하는 현상.

5.1 원인

원인 설명
Language Prior Bias LLM의 사전지식이 시각 정보보다 우선
불충분한 Visual Grounding Vision token과 text token 간 attention 약함
훈련 데이터 편향 특정 객체 동시 출현 빈도 학습
해상도 한계 작은 객체나 세부 텍스트 인식 실패
Token 압축 손실 Visual token 줄이면서 정보 손실

5.2 완화 기법

훈련 단계:

기법 논문/방법 핵심 아이디어
Robust Instruction Tuning LRV-Instruction (ICLR 2024) 부정적 예시 포함 데이터
DPO for Hallucination CHAIR-DPO (BMVC 2025) CHAIR 점수 기반 선호 최적화
RLHF-V RLHF-V (2024) 세밀한 교정 피드백
HDPO HDPO (ACL 2025 Findings) 환각 타겟 선호 최적화

추론 단계 (Training-free):

기법 논문/방법 핵심 아이디어
Attention Masking Seeing Far and Clearly (CVPR 2025) 최적화된 causal masking
Contrastive Decoding VCD (2024) 이미지 유무 출력 차이 활용
Multi-Frequency Perturbation MFP (2025) 주파수 영역 시각 증강
Attention Re-alignment Nature SR (2026) 중간 레이어 attention 가이드
Self-Reflection Woodpecker (2024) 생성 후 검증-수정 파이프라인

5.3 평가 메트릭

  • CHAIR (Caption Hallucination Assessment with Image Relevance): 캡션에서 환각 객체 비율
  • POPE (Polling-based Object Probing Evaluation): Yes/No 질문으로 객체 환각 측정
  • HallusionBench: 시각적 환각 종합 벤치마크
  • AMBER: 생성형 + 판별형 환각 동시 평가

6. 확장 방향

6.1 비디오 이해

모델 방식 특징
Video-LLaVA 프레임 샘플링 + 이미지 MLLM 단순하지만 효과적
LLaVA-Video 시간적 토큰 + SlowFast 긴 비디오 지원
Gemini 1.5 Pro 네이티브 비디오 입력 1M 토큰으로 긴 비디오
Qwen2-VL Dynamic FPS 샘플링 적응적 프레임 수
InternVL2 다중 프레임 인코딩 일관된 이미지/비디오 처리

핵심 과제:

  • 토큰 효율성 (1분 비디오 = 수만 토큰)
  • 시간적 추론 (인과관계, 순서)
  • 긴 비디오 이해 (1시간+)

6.2 오디오/음성 통합

모델 모달리티 특징
GPT-4o 텍스트+이미지+오디오 네이티브 음성 입출력
Gemini 2.0 텍스트+이미지+비디오+오디오 멀티모달 통합
Qwen2-Audio 텍스트+오디오 오디오 이해 특화
SALMONN 텍스트+이미지+오디오 다중 오디오 인코더

6.3 Any-to-Any 생성

텍스트뿐 아니라 이미지, 오디오, 비디오를 출력하는 모델:

모델 출력 모달리티 방법
Gemini 텍스트 + 이미지 네이티브 생성
GPT-4o + DALL-E 텍스트 + 이미지 도구 호출
Emu2 텍스트 + 이미지 통합 생성
Vitron 텍스트 + 이미지 + 비디오 모듈형 생성
CoDi-2 Any-to-Any 다중 생성기 조합

6.4 Grounding & Referring

이미지 내 특정 영역을 지시하거나 참조하는 능력:

  • Visual Grounding: 텍스트 설명 → bounding box
  • Referring Expression: 영역 지정 → 설명 생성
  • Segmentation: 텍스트 지시 → pixel-level 마스크

대표 모델: Kosmos-2, Shikra, Ferret, GLaMM, Qwen2-VL(bbox 출력 지원)

6.5 GUI/Agent

MLLM을 GUI 자동화 에이전트로 활용:

프로젝트 대상 특징
CogAgent 웹/데스크톱 GUI 이해 특화 학습
AppAgent 모바일 스마트폰 앱 조작
SeeClick 클릭 위치 예측
OS-Copilot OS 전체 범용 컴퓨터 사용

7. 고급 기법

7.1 Multimodal In-Context Learning (M-ICL)

  • 이미지-텍스트 예시를 few-shot으로 제공
  • 학습 없이 새로운 태스크 수행
  • 예시 선택과 배치 순서가 성능에 큰 영향

7.2 Multimodal Chain-of-Thought (M-CoT)

  • 시각 정보를 단계적으로 추론
  • "이미지를 보고 → 관련 정보 추출 → 논리적 추론" 체인
  • Set-of-Mark (SoM): 이미지에 마커를 오버레이하여 참조

7.3 LLM-Aided Visual Reasoning (LAVR)

  • LLM이 시각 모듈을 도구로 호출하여 추론
  • Visual Programming: 코드로 시각 처리 파이프라인 구성
  • VisProg, ViperGPT 등

7.4 Test-Time Compute Scaling

  • InternVL3에서 도입
  • 추론 시 더 많은 compute를 사용하여 성능 향상
  • Best-of-N, Step-wise RM, Tree Search 등

8. 핵심 논문 & 리소스

8.1 필독 논문

논문 연도 핵심 기여 링크
A Survey on Multimodal Large Language Models 2023→2024 가장 포괄적인 MLLM 서베이 arXiv:2306.13549
Visual Instruction Tuning (LLaVA) 2023 Visual Instruction Tuning 개념 정립 arXiv:2304.08485
Improved Baselines with Visual Instruction Tuning (LLaVA 1.5) 2023 MLP projector, 학습 데이터 개선 arXiv:2310.03744
InternVL: Scaling Up Vision Foundation Models 2024 6B 비전 인코더 arXiv:2312.14238
InternVL2.5 2024 대규모 비전 인코더의 데이터 효율성 Blog
InternVL3 2025 Test-time scaling, RL for MLLM arXiv:2504.10479
Qwen2-VL 2024 Naive Dynamic Resolution arXiv:2409.12191
LLaVA-NeXT 2024 AnyRes, 다양한 LLM backbone Blog
NVLM: Open Frontier-Class MLLM 2024 Decoder + Cross-Attn 하이브리드 arXiv:2409.11402
Cambrian-1: A Fully Open, Vision-Centric Exploration 2024 비전 인코더 체계적 비교 arXiv:2406.16860
Understanding Multimodal LLMs (Sebastian Raschka) 2024 아키텍처 직관적 설명 Blog
Comprehensive Survey and Guide to MLLMs in Vision-Language Tasks 2024 응용 중심 서베이 arXiv:2411.06284
Molmo and PixMo 2024 완전 오픈 데이터+모델 arXiv:2409.17146
DeepSeek-VL2 2024 MoE 기반 효율적 MLLM arXiv:2412.10302

8.2 Hallucination 관련 논문

논문 연도 링크
Mitigating Hallucination via Robust Instruction Tuning 2023 arXiv:2306.14565
RLHF-V: Towards Trustworthy MLLMs 2024 arXiv:2312.00849
Seeing Far and Clearly (CVPR 2025) 2025 CVPR 2025
CHAIR-DPO (BMVC 2025) 2025 BMVC 2025

8.3 GitHub 리소스

리포지토리 Stars 설명
BradyFU/Awesome-Multimodal-Large-Language-Models 14K+ 가장 포괄적인 MLLM 논문 목록 (NSR 논문 동반)
gokayfem/awesome-vlm-architectures 2K+ VLM 아키텍처 시각화 비교
showlab/Awesome-MLLM-Hallucination 1K+ MLLM Hallucination 논문 큐레이션
NishilBalar/Awesome-LVLM-Hallucination - LVLM Hallucination 최신 논문
Czi24/Awesome-MLLM-LLM-Colab - Google Colab에서 MLLM 실행 노트북
alopatenko/LLMEvaluation - 멀티모달 벤치마크 종합 목록
haotian-liu/LLaVA 20K+ LLaVA 공식 구현
OpenGVLab/InternVL 8K+ InternVL 시리즈 공식
QwenLM/Qwen2-VL 5K+ Qwen2-VL 공식

8.4 학습 리소스

리소스 유형 링크
Sebastian Raschka - Understanding Multimodal LLMs 블로그 Link
Cameron R. Wolfe - Vision LLMs 블로그 Link
Trelis Research - Top Vision Models 2025 분석 Link
HuggingFace Open VLM Leaderboard 리더보드 Link
MMMU Benchmark 벤치마크 Link

9. 실무 가이드

9.1 MLLM 선택 기준

시나리오 추천 모델 이유
API 기반 최고 성능 GPT-4o / Gemini 2.0 범용 최강
온프레미스 고성능 InternVL3-78B / Qwen2.5-VL-72B 오픈소스 최상위
온프레미스 효율 Qwen2.5-VL-7B / InternVL2.5-8B 성능/비용 균형
Edge/모바일 Moondream2 / SmolVLM / Qwen2.5-VL-3B 경량
문서 이해 (OCR) Qwen2.5-VL / GPT-4o OCR 성능 최상위
비디오 이해 Gemini 1.5 Pro / Qwen2-VL 긴 컨텍스트
완전 오픈 (데이터 포함) Molmo 코드+데이터+모델 전부 공개

9.2 Fine-tuning 가이드

1. 기본 체크리스트:
   [ ] OCR+LLM으로 해결 안 되는지 먼저 확인
   [ ] API 모델(GPT-4o)로 few-shot 테스트
   [ ] 데이터 최소 1K~10K 쌍 확보
   [ ] 평가 메트릭 사전 정의

2. 추천 베이스 모델:
   - GPU 1대 (24GB): Qwen2.5-VL-7B + LoRA
   - GPU 2~4대: InternVL2.5-26B + LoRA
   - GPU 8대+: InternVL2.5-78B / Qwen2.5-VL-72B

3. 학습 파이프라인:
   Stage 1: Projector pre-training (선택, 데이터 많으면)
   Stage 2: Full/LoRA fine-tuning on instruction data
   Stage 3: DPO (hallucination이 심하면)

9.3 서빙 최적화

기법 효과 도구
Quantization (AWQ/GPTQ) VRAM 50%+ 절감 AutoAWQ, auto-gptq
vLLM 높은 처리량 vLLM (vision 지원)
SGLang 빠른 추론 SGLang
TensorRT-LLM NVIDIA 최적화 TRT-LLM
Visual Token Pruning 토큰 수 줄여서 속도 향상 FastV, PVC

참고 문헌

  1. Yin, S., et al. (2024). "A Survey on Multimodal Large Language Models." National Science Review, 11(12). arXiv:2306.13549
  2. Liu, H., et al. (2023). "Visual Instruction Tuning." NeurIPS 2023. arXiv:2304.08485
  3. Chen, Z., et al. (2024). "InternVL: Scaling Up Vision Foundation Models." CVPR 2024. arXiv:2312.14238
  4. Wang, P., et al. (2024). "Qwen2-VL: Enhancing Vision-Language Model's Perception." arXiv:2409.12191
  5. Raschka, S. (2024). "Understanding Multimodal LLMs." Blog
  6. Dai, W., et al. (2024). "NVLM: Open Frontier-Class Multimodal LLMs." arXiv:2409.11402
  7. Tong, S., et al. (2024). "Cambrian-1: A Fully Open, Vision-Centric Exploration." arXiv:2406.16860

마지막 업데이트: 2026-03-28