콘텐츠로 이동
Data Prep
상세

Temporal QA에서 LLM의 Abstention 학습

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA?

항목 내용
arXiv 2602.04755
저자 Xinyu Zhou et al.
발표 2026-02-04
학회 ICLR 2026
카테고리 cs.CL, cs.AI

1. 문제 정의

LLM의 과신 문제

LLM은 불확실성을 인정하지 않고 유창한 답변을 생성하는 경향:

[일반적 LLM 행동]
Q: "2021년 3월 기준 테슬라 CEO는?"
A: "일론 머스크입니다." ✓ (정확)

Q: "2019년 3월 기준 트위터 CEO는?"
A: "일론 머스크입니다." ✗ (당시 잭 도시)
    시간 구분 실패

Temporal QA의 특수성

시간에 민감한 질의응답의 어려움:

  1. 시점별 정답 변화: 같은 질문도 시점에 따라 답이 다름
  2. 답변 불가능 질문: 미래 또는 데이터 부재 시점
  3. 시간 정보 혼동: 여러 시점의 정보 혼합

2. Abstention (답변 보류) 개념

정의

Abstention: 답변이 불확실하거나 불가능할 때 "모른다"고 응답하는 능력

[Abstention이 필요한 경우]

1. 시점 데이터 없음
Q: "2030년 대통령은?"
A: "미래의 일이라 알 수 없습니다." ✓

2. 학습 데이터 범위 외
Q: "2025년 10월 유가는?"
A: "제 학습 데이터 이후의 정보입니다." ✓

3. 모호한 질문
Q: "그때 날씨는?"
A: "시점과 장소를 명시해 주세요." ✓

기존 접근법의 한계

방법 문제점
Calibration 복잡한 추론에서 불확실성 포착 어려움
Prompting 일관성 없는 abstention
Threshold 시점별 임계값 설정 어려움

3. 제안 방법론

3.1 Abstention as a Teachable Skill

Abstention을 학습 가능한 스킬로 프레이밍:

[학습 데이터 구성]

Answerable 예시:
- Q: "2020년 미국 대통령은?"
- A: "도널드 트럼프입니다."

Unanswerable 예시:
- Q: "2035년 미국 대통령은?"
- A: "[ABSTAIN] 미래의 일이라 알 수 없습니다."

3.2 Chain-of-Thought (CoT) Supervision

시간 추론 과정을 명시적으로 학습:

Q: "2019년 6월 기준 아마존 CEO는?"

CoT:
1. 현재 시점 확인: 2019년 6월
2. 관련 사실 검색: 제프 베조스는 1994-2021년 CEO
3. 시점 비교: 2019년 6월 < 2021년 (재임 중)
4. 결론: 제프 베조스

A: "제프 베조스입니다."

3.3 Abstention-Aware RL

강화학습으로 abstention 정책 최적화:

보상 함수 설계:

\[R(a, q) = \begin{cases} +1 & \text{if correct answer or correct abstention} \\ -1 & \text{if wrong answer} \\ -0.5 & \text{if unnecessary abstention (could answer)} \end{cases}\]

정책 최적화:

\[\mathcal{L}_{RL} = -\mathbb{E}_{q \sim D}[\sum_t R(a_t, q) \log \pi_\theta(a_t|q, h_t)]\]

4. 실험 설정

데이터셋

데이터셋 특징 예시
TimeQA-Easy 단순 시점 질의 "2020년 대통령은?"
TimeQA-Hard 복잡한 시간 추론 "X 이후 첫 올림픽 개최지는?"
TempQuestions 시간 간격 추론 "A와 B 사이에 무슨 일이?"

평가 지표

  1. Exact Match (EM): 정확히 일치하는 답변 비율
  2. True Positive Rate (TPR): Unanswerable 올바르게 abstain
  3. False Positive Rate (FPR): Answerable 잘못 abstain
  4. F1 Score: 전체 성능

5. 실험 결과

주요 성능 비교

모델 TimeQA-Easy EM TimeQA-Hard EM
GPT-4o 71.2% 58.4%
Claude-3 68.5% 55.1%
Qwen2.5-1.5B (기본) 52.3% 38.9%
Qwen2.5-1.5B (제안) 74.7% 64.2%

GPT-4o 대비 향상

벤치마크 향상폭
TimeQA-Easy +3.46%
TimeQA-Hard +5.80%

Unanswerable 질문 처리

설정 TPR (Abstention 정확도)
SFT only 52%
SFT + RL 72%
향상 +20%p

6. 분석: SFT vs RL

SFT의 문제점

Supervised Fine-Tuning은 과신(overconfidence)을 유발:

[SFT 학습 후 행동]
- 학습 데이터: 정답 위주 → "항상 답해야 한다" 학습
- 결과: 모를 때도 답변 시도 → 오류 증가

RL의 개선 효과

강화학습은 abstention 최적화:

[RL 학습 후 행동]
- 잘못된 답변 → 페널티 → abstention 학습
- 올바른 abstention → 보상 → 신중한 행동
- 불필요한 abstention → 약한 페널티 → 균형

정량적 비교

측면 SFT RL
정확도 중간 높음
Calibration 나쁨 좋음
Overconfidence 높음 낮음
Abstention 품질 낮음 높음

7. 암묵적 vs 명시적 정보

실험 설계

정보 유형 설명 예시
원본 컨텍스트 전체 문서 Wikipedia 문서
시간 서브컨텍스트 시점 관련 부분만 재임 기간 정보
지식 그래프 구조화된 시간 정보 (엔티티, 시점, 관계)
CoT 명시적 단계별 추론 "1단계: 시점 확인..."

결과

정보 유형 Abstention F1
원본 컨텍스트 0.58
시간 서브컨텍스트 0.61
지식 그래프 0.63
CoT 명시적 0.72

결론: 암묵적 정보보다 명시적 CoT가 abstention 학습에 효과적


8. 구현 가이드

학습 파이프라인

1. 데이터 준비
   - Answerable/Unanswerable 분류
   - CoT 생성 (GPT-4 또는 수동)

2. SFT 단계
   - CoT 포함 supervised learning
   - 2-3 epoch

3. RL 단계
   - Abstention-aware reward
   - PPO 또는 DPO
   - 신중한 학습률

4. 평가
   - EM, TPR, FPR 측정
   - Calibration 검증

핵심 하이퍼파라미터

파라미터 SFT 단계 RL 단계
Learning Rate 2e-5 1e-6
Epochs 3 1
Batch Size 32 16
Abstention Penalty - -0.5

9. 참고 자료

  • arXiv 원문
  • 학회: ICLR 2026
  • 관련 연구: Calibration, RLHF, Temporal Reasoning

정리일: 2026-03-01