ProAgentBench: 선제적 AI 에이전트 평가 벤치마크¶

Evaluating LLM Agents for Proactive Assistance with Real-World Data

항목	내용
arXiv	2602.04482
저자	Huaze Tang et al.
발표	2026-02-04
카테고리	cs.HC
코드	GitHub

1. 문제 정의¶

선제적 에이전트의 필요성¶

기존 AI 에이전트는 반응적(Reactive) 방식으로 동작한다:

사용자가 명시적으로 요청해야 응답
사용자 의도를 예측하지 않음
인지 부하를 줄이지 못함

선제적(Proactive) 에이전트는:

사용자 의도를 미리 예측
적절한 시점에 자동으로 지원 제공
워크플로우 간소화

기존 데이터셋의 한계¶

LLM 합성 데이터 의존: 실제 인간 의사결정 패턴 미반영
고립된 태스크 중심: 연속적 워크플로우의 사전 행동 맥락 누락

2. ProAgentBench 프레임워크¶

계층적 태스크 구조¶

선제적 지원을 두 단계로 분해:

[단계 1] 타이밍 예측 (When)
├── 언제 개입해야 하는가?
├── 사용자 행동 패턴 분석
└── 개입 시점 결정

[단계 2] 지원 콘텐츠 생성 (What)
├── 무엇을 제안해야 하는가?
├── 맥락 기반 콘텐츠 생성
└── 적절성 평가

데이터 수집 방법론¶

실제 사용자 세션에서 수집:

항목	수치
총 이벤트 수	28,000+
세션 시간	500+ 시간
Burstiness (B)	0.787

Burstiness: 실제 사용자 상호작용의 불규칙한 패턴을 측정하는 지표

\[B = \frac{\sigma_\tau - \mu_\tau}{\sigma_\tau + \mu_\tau}\]

\(\sigma_\tau\): 이벤트 간 시간 간격의 표준편차
\(\mu_\tau\): 이벤트 간 시간 간격의 평균
B가 1에 가까울수록 bursty한 패턴 (실제 인간 행동 특성)

3. 데이터셋 구성¶

이벤트 유형¶

사용자 세션
    ├── 키보드 입력
    ├── 마우스 클릭
    ├── 애플리케이션 전환
    ├── 파일 작업
    ├── 웹 브라우징
    └── 커뮤니케이션 (이메일, 메시지)

프라이버시 보호¶

개인 식별 정보 제거
민감 콘텐츠 마스킹
동의 기반 수집

합성 데이터와의 비교¶

특성	합성 데이터	ProAgentBench
Burstiness	낮음 (~0.3)	높음 (0.787)
맥락 연속성	단절적	연속적
행동 다양성	제한적	풍부
노이즈	없음	현실적

4. 평가 메트릭¶

타이밍 예측 평가¶

Precision@K: 상위 K개 예측 중 정확한 비율
Recall@K: 실제 개입 시점 중 K개 내 포착 비율
F1-Score: Precision과 Recall의 조화 평균

콘텐츠 생성 평가¶

Relevance: 맥락 적합성
Helpfulness: 실제 도움 정도
Timing Appropriateness: 시점 적절성

5. 실험 결과¶

베이스라인 비교¶

LLM 및 VLM 기반 베이스라인 평가:

모델	타이밍 F1	콘텐츠 품질	비고
GPT-4V	0.42	3.8/5	VLM 기반
Claude-3	0.38	3.6/5	LLM 기반
Gemini Pro	0.35	3.4/5	VLM 기반
LLaMA-3-70B	0.31	3.2/5	오픈소스

핵심 발견¶

1. Long-term Memory 효과¶

메모리 없음:     F1 = 0.25
단기 메모리:     F1 = 0.35
장기 메모리:     F1 = 0.42
         ↑
  +68% 향상

2. Historical Context 중요성¶

과거 행동 맥락이 예측 정확도에 크게 기여:

맥락 윈도우	타이밍 정확도
5분	0.28
30분	0.36
2시간	0.41
전체 세션	0.44

3. 실제 데이터 vs 합성 데이터¶

학습 데이터	테스트 성능	차이
합성 데이터	0.29	-
실제 데이터	0.42	+45%

6. 아키텍처 가이드라인¶

효과적인 선제적 에이전트 설계¶

입력: 연속적 사용자 행동 스트림
         ↓
┌─────────────────────────────┐
│   맥락 인코더               │
│   (과거 행동 임베딩)         │
└─────────────────────────────┘
         ↓
┌─────────────────────────────┐
│   장기 메모리 모듈           │
│   (사용자 패턴 저장)         │
└─────────────────────────────┘
         ↓
┌─────────────────────────────┐
│   타이밍 예측기              │
│   (개입 시점 결정)           │
└─────────────────────────────┘
         ↓
┌─────────────────────────────┐
│   콘텐츠 생성기              │
│   (지원 내용 생성)           │
└─────────────────────────────┘
         ↓
출력: 선제적 지원 제안

7. 참고 자료¶

arXiv 원문
데이터셋 및 코드
관련 연구: Proactive AI, Context-Aware Computing, User Intent Prediction

정리일: 2026-03-01