콘텐츠로 이동
Data Prep
상세

ProAgentBench: 선제적 AI 에이전트 평가 벤치마크

Evaluating LLM Agents for Proactive Assistance with Real-World Data

항목 내용
arXiv 2602.04482
저자 Huaze Tang et al.
발표 2026-02-04
카테고리 cs.HC
코드 GitHub

1. 문제 정의

선제적 에이전트의 필요성

기존 AI 에이전트는 반응적(Reactive) 방식으로 동작한다:

  • 사용자가 명시적으로 요청해야 응답
  • 사용자 의도를 예측하지 않음
  • 인지 부하를 줄이지 못함

선제적(Proactive) 에이전트는:

  • 사용자 의도를 미리 예측
  • 적절한 시점에 자동으로 지원 제공
  • 워크플로우 간소화

기존 데이터셋의 한계

  1. LLM 합성 데이터 의존: 실제 인간 의사결정 패턴 미반영
  2. 고립된 태스크 중심: 연속적 워크플로우의 사전 행동 맥락 누락

2. ProAgentBench 프레임워크

계층적 태스크 구조

선제적 지원을 두 단계로 분해:

[단계 1] 타이밍 예측 (When)
├── 언제 개입해야 하는가?
├── 사용자 행동 패턴 분석
└── 개입 시점 결정

[단계 2] 지원 콘텐츠 생성 (What)
├── 무엇을 제안해야 하는가?
├── 맥락 기반 콘텐츠 생성
└── 적절성 평가

데이터 수집 방법론

실제 사용자 세션에서 수집:

항목 수치
총 이벤트 수 28,000+
세션 시간 500+ 시간
Burstiness (B) 0.787

Burstiness: 실제 사용자 상호작용의 불규칙한 패턴을 측정하는 지표

\[B = \frac{\sigma_\tau - \mu_\tau}{\sigma_\tau + \mu_\tau}\]
  • \(\sigma_\tau\): 이벤트 간 시간 간격의 표준편차
  • \(\mu_\tau\): 이벤트 간 시간 간격의 평균
  • B가 1에 가까울수록 bursty한 패턴 (실제 인간 행동 특성)

3. 데이터셋 구성

이벤트 유형

사용자 세션
    ├── 키보드 입력
    ├── 마우스 클릭
    ├── 애플리케이션 전환
    ├── 파일 작업
    ├── 웹 브라우징
    └── 커뮤니케이션 (이메일, 메시지)

프라이버시 보호

  • 개인 식별 정보 제거
  • 민감 콘텐츠 마스킹
  • 동의 기반 수집

합성 데이터와의 비교

특성 합성 데이터 ProAgentBench
Burstiness 낮음 (~0.3) 높음 (0.787)
맥락 연속성 단절적 연속적
행동 다양성 제한적 풍부
노이즈 없음 현실적

4. 평가 메트릭

타이밍 예측 평가

  • Precision@K: 상위 K개 예측 중 정확한 비율
  • Recall@K: 실제 개입 시점 중 K개 내 포착 비율
  • F1-Score: Precision과 Recall의 조화 평균

콘텐츠 생성 평가

  • Relevance: 맥락 적합성
  • Helpfulness: 실제 도움 정도
  • Timing Appropriateness: 시점 적절성

5. 실험 결과

베이스라인 비교

LLM 및 VLM 기반 베이스라인 평가:

모델 타이밍 F1 콘텐츠 품질 비고
GPT-4V 0.42 3.8/5 VLM 기반
Claude-3 0.38 3.6/5 LLM 기반
Gemini Pro 0.35 3.4/5 VLM 기반
LLaMA-3-70B 0.31 3.2/5 오픈소스

핵심 발견

1. Long-term Memory 효과

메모리 없음:     F1 = 0.25
단기 메모리:     F1 = 0.35
장기 메모리:     F1 = 0.42
  +68% 향상

2. Historical Context 중요성

과거 행동 맥락이 예측 정확도에 크게 기여:

맥락 윈도우 타이밍 정확도
5분 0.28
30분 0.36
2시간 0.41
전체 세션 0.44

3. 실제 데이터 vs 합성 데이터

학습 데이터 테스트 성능 차이
합성 데이터 0.29 -
실제 데이터 0.42 +45%

6. 아키텍처 가이드라인

효과적인 선제적 에이전트 설계

입력: 연속적 사용자 행동 스트림
┌─────────────────────────────┐
│   맥락 인코더               │
│   (과거 행동 임베딩)         │
└─────────────────────────────┘
┌─────────────────────────────┐
│   장기 메모리 모듈           │
│   (사용자 패턴 저장)         │
└─────────────────────────────┘
┌─────────────────────────────┐
│   타이밍 예측기              │
│   (개입 시점 결정)           │
└─────────────────────────────┘
┌─────────────────────────────┐
│   콘텐츠 생성기              │
│   (지원 내용 생성)           │
└─────────────────────────────┘
출력: 선제적 지원 제안

7. 참고 자료


정리일: 2026-03-01