AgentArk: Multi-Agent 지능의 단일 모델 증류¶

Distilling Multi-Agent Intelligence into a Single LLM Agent

1. 문제 정의¶

LLM 기반 Multi-Agent System(MAS)은 반복적 토론(iterative debate)을 통해 우수한 추론 성능을 달성한다. 하지만 실제 배포에는 두 가지 근본적 문제가 있다:

핵심 아이디어는 추론 시간의 계산 부담을 학습 시간으로 이동하는 것이다:

[기존 MAS]
추론 시점: Agent1 ↔ Agent2 ↔ Agent3 (반복 상호작용)
           → 높은 추론 비용, 오류 전파

[AgentArk]
학습 시점: MAS 동역학 → 단일 모델 가중치로 증류
추론 시점: 단일 에이전트 (효율적)

AgentArk는 세 가지 수준의 증류 전략을 제안한다:

가장 기본적인 수준의 증류:

중간 수준의 증류:

Agent1: "문제를 X 관점에서 분석하면..."
Agent2: "Agent1의 분석에 Y를 추가하면..."
Agent3: "종합하면 Z가 최적 해답..."
         ↓
단일 모델: 내부적으로 X→Y→Z 추론 패턴 학습

가장 정교한 수준의 증류:

\[\mathcal{L}_{process} = \sum_{t=1}^{T} \lambda_t \cdot \mathcal{L}_{CE}(y_t, \hat{y}_t) + \alpha \cdot \mathcal{L}_{correction}\]

Multi-Agent System에서 자기 교정은 자연스럽게 발생한다:

AgentArk는 이 과정을 단일 모델 내부에서 수행하도록 학습:

입력: 복잡한 추론 문제
         ↓
[내부 추론 단계 1] → 초기 해답 생성
         ↓
[내부 검증 단계] → 해답 검토
         ↓
[내부 추론 단계 2] → 필요시 수정
         ↓
최종 출력

다양한 추론 태스크에서 평가:

태스크 유형	원본 MAS	AgentArk (단일)	효율성 개선
수학 추론	85.2%	83.7%	3-5x 빠름
코드 생성	78.4%	76.9%	4x 빠름
논리 퍼즐	91.3%	89.8%	3x 빠름
상식 추론	88.1%	87.2%	3x 빠름

[학습 비용] ↑ + [추론 비용] ↓↓↓ = 전체 비용 ↓

MAS 추론 1회 비용 × 추론 횟수 > 1회 증류 학습 비용
→ 추론 횟수가 많을수록 AgentArk 유리

정리일: 2026-03-01