ProAgentBench: 선제적 AI 에이전트 평가 벤치마크¶
Evaluating LLM Agents for Proactive Assistance with Real-World Data
| 항목 | 내용 |
|---|---|
| arXiv | 2602.04482 |
| 저자 | Huaze Tang et al. |
| 발표 | 2026-02-04 |
| 카테고리 | cs.HC |
| 코드 | GitHub |
1. 문제 정의¶
선제적 에이전트의 필요성¶
기존 AI 에이전트는 반응적(Reactive) 방식으로 동작한다:
- 사용자가 명시적으로 요청해야 응답
- 사용자 의도를 예측하지 않음
- 인지 부하를 줄이지 못함
선제적(Proactive) 에이전트는:
- 사용자 의도를 미리 예측
- 적절한 시점에 자동으로 지원 제공
- 워크플로우 간소화
기존 데이터셋의 한계¶
- LLM 합성 데이터 의존: 실제 인간 의사결정 패턴 미반영
- 고립된 태스크 중심: 연속적 워크플로우의 사전 행동 맥락 누락
2. ProAgentBench 프레임워크¶
계층적 태스크 구조¶
선제적 지원을 두 단계로 분해:
[단계 1] 타이밍 예측 (When)
├── 언제 개입해야 하는가?
├── 사용자 행동 패턴 분석
└── 개입 시점 결정
[단계 2] 지원 콘텐츠 생성 (What)
├── 무엇을 제안해야 하는가?
├── 맥락 기반 콘텐츠 생성
└── 적절성 평가
데이터 수집 방법론¶
실제 사용자 세션에서 수집:
| 항목 | 수치 |
|---|---|
| 총 이벤트 수 | 28,000+ |
| 세션 시간 | 500+ 시간 |
| Burstiness (B) | 0.787 |
Burstiness: 실제 사용자 상호작용의 불규칙한 패턴을 측정하는 지표
\[B = \frac{\sigma_\tau - \mu_\tau}{\sigma_\tau + \mu_\tau}\]
- \(\sigma_\tau\): 이벤트 간 시간 간격의 표준편차
- \(\mu_\tau\): 이벤트 간 시간 간격의 평균
- B가 1에 가까울수록 bursty한 패턴 (실제 인간 행동 특성)
3. 데이터셋 구성¶
이벤트 유형¶
프라이버시 보호¶
- 개인 식별 정보 제거
- 민감 콘텐츠 마스킹
- 동의 기반 수집
합성 데이터와의 비교¶
| 특성 | 합성 데이터 | ProAgentBench |
|---|---|---|
| Burstiness | 낮음 (~0.3) | 높음 (0.787) |
| 맥락 연속성 | 단절적 | 연속적 |
| 행동 다양성 | 제한적 | 풍부 |
| 노이즈 | 없음 | 현실적 |
4. 평가 메트릭¶
타이밍 예측 평가¶
- Precision@K: 상위 K개 예측 중 정확한 비율
- Recall@K: 실제 개입 시점 중 K개 내 포착 비율
- F1-Score: Precision과 Recall의 조화 평균
콘텐츠 생성 평가¶
- Relevance: 맥락 적합성
- Helpfulness: 실제 도움 정도
- Timing Appropriateness: 시점 적절성
5. 실험 결과¶
베이스라인 비교¶
LLM 및 VLM 기반 베이스라인 평가:
| 모델 | 타이밍 F1 | 콘텐츠 품질 | 비고 |
|---|---|---|---|
| GPT-4V | 0.42 | 3.8/5 | VLM 기반 |
| Claude-3 | 0.38 | 3.6/5 | LLM 기반 |
| Gemini Pro | 0.35 | 3.4/5 | VLM 기반 |
| LLaMA-3-70B | 0.31 | 3.2/5 | 오픈소스 |
핵심 발견¶
1. Long-term Memory 효과¶
2. Historical Context 중요성¶
과거 행동 맥락이 예측 정확도에 크게 기여:
| 맥락 윈도우 | 타이밍 정확도 |
|---|---|
| 5분 | 0.28 |
| 30분 | 0.36 |
| 2시간 | 0.41 |
| 전체 세션 | 0.44 |
3. 실제 데이터 vs 합성 데이터¶
| 학습 데이터 | 테스트 성능 | 차이 |
|---|---|---|
| 합성 데이터 | 0.29 | - |
| 실제 데이터 | 0.42 | +45% |
6. 아키텍처 가이드라인¶
효과적인 선제적 에이전트 설계¶
입력: 연속적 사용자 행동 스트림
↓
┌─────────────────────────────┐
│ 맥락 인코더 │
│ (과거 행동 임베딩) │
└─────────────────────────────┘
↓
┌─────────────────────────────┐
│ 장기 메모리 모듈 │
│ (사용자 패턴 저장) │
└─────────────────────────────┘
↓
┌─────────────────────────────┐
│ 타이밍 예측기 │
│ (개입 시점 결정) │
└─────────────────────────────┘
↓
┌─────────────────────────────┐
│ 콘텐츠 생성기 │
│ (지원 내용 생성) │
└─────────────────────────────┘
↓
출력: 선제적 지원 제안
7. 참고 자료¶
정리일: 2026-03-01