Temporal QA에서 LLM의 Abstention 학습¶
When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA?
| 항목 | 내용 |
|---|---|
| arXiv | 2602.04755 |
| 저자 | Xinyu Zhou et al. |
| 발표 | 2026-02-04 |
| 학회 | ICLR 2026 |
| 카테고리 | cs.CL, cs.AI |
1. 문제 정의¶
LLM의 과신 문제¶
LLM은 불확실성을 인정하지 않고 유창한 답변을 생성하는 경향:
[일반적 LLM 행동]
Q: "2021년 3월 기준 테슬라 CEO는?"
A: "일론 머스크입니다." ✓ (정확)
Q: "2019년 3월 기준 트위터 CEO는?"
A: "일론 머스크입니다." ✗ (당시 잭 도시)
↑
시간 구분 실패
Temporal QA의 특수성¶
시간에 민감한 질의응답의 어려움:
- 시점별 정답 변화: 같은 질문도 시점에 따라 답이 다름
- 답변 불가능 질문: 미래 또는 데이터 부재 시점
- 시간 정보 혼동: 여러 시점의 정보 혼합
2. Abstention (답변 보류) 개념¶
정의¶
Abstention: 답변이 불확실하거나 불가능할 때 "모른다"고 응답하는 능력
[Abstention이 필요한 경우]
1. 시점 데이터 없음
Q: "2030년 대통령은?"
A: "미래의 일이라 알 수 없습니다." ✓
2. 학습 데이터 범위 외
Q: "2025년 10월 유가는?"
A: "제 학습 데이터 이후의 정보입니다." ✓
3. 모호한 질문
Q: "그때 날씨는?"
A: "시점과 장소를 명시해 주세요." ✓
기존 접근법의 한계¶
| 방법 | 문제점 |
|---|---|
| Calibration | 복잡한 추론에서 불확실성 포착 어려움 |
| Prompting | 일관성 없는 abstention |
| Threshold | 시점별 임계값 설정 어려움 |
3. 제안 방법론¶
3.1 Abstention as a Teachable Skill¶
Abstention을 학습 가능한 스킬로 프레이밍:
[학습 데이터 구성]
Answerable 예시:
- Q: "2020년 미국 대통령은?"
- A: "도널드 트럼프입니다."
Unanswerable 예시:
- Q: "2035년 미국 대통령은?"
- A: "[ABSTAIN] 미래의 일이라 알 수 없습니다."
3.2 Chain-of-Thought (CoT) Supervision¶
시간 추론 과정을 명시적으로 학습:
Q: "2019년 6월 기준 아마존 CEO는?"
CoT:
1. 현재 시점 확인: 2019년 6월
2. 관련 사실 검색: 제프 베조스는 1994-2021년 CEO
3. 시점 비교: 2019년 6월 < 2021년 (재임 중)
4. 결론: 제프 베조스
A: "제프 베조스입니다."
3.3 Abstention-Aware RL¶
강화학습으로 abstention 정책 최적화:
보상 함수 설계:
\[R(a, q) = \begin{cases}
+1 & \text{if correct answer or correct abstention} \\
-1 & \text{if wrong answer} \\
-0.5 & \text{if unnecessary abstention (could answer)}
\end{cases}\]
정책 최적화:
\[\mathcal{L}_{RL} = -\mathbb{E}_{q \sim D}[\sum_t R(a_t, q) \log \pi_\theta(a_t|q, h_t)]\]
4. 실험 설정¶
데이터셋¶
| 데이터셋 | 특징 | 예시 |
|---|---|---|
| TimeQA-Easy | 단순 시점 질의 | "2020년 대통령은?" |
| TimeQA-Hard | 복잡한 시간 추론 | "X 이후 첫 올림픽 개최지는?" |
| TempQuestions | 시간 간격 추론 | "A와 B 사이에 무슨 일이?" |
평가 지표¶
- Exact Match (EM): 정확히 일치하는 답변 비율
- True Positive Rate (TPR): Unanswerable 올바르게 abstain
- False Positive Rate (FPR): Answerable 잘못 abstain
- F1 Score: 전체 성능
5. 실험 결과¶
주요 성능 비교¶
| 모델 | TimeQA-Easy EM | TimeQA-Hard EM |
|---|---|---|
| GPT-4o | 71.2% | 58.4% |
| Claude-3 | 68.5% | 55.1% |
| Qwen2.5-1.5B (기본) | 52.3% | 38.9% |
| Qwen2.5-1.5B (제안) | 74.7% | 64.2% |
GPT-4o 대비 향상¶
| 벤치마크 | 향상폭 |
|---|---|
| TimeQA-Easy | +3.46% |
| TimeQA-Hard | +5.80% |
Unanswerable 질문 처리¶
| 설정 | TPR (Abstention 정확도) |
|---|---|
| SFT only | 52% |
| SFT + RL | 72% |
| 향상 | +20%p |
6. 분석: SFT vs RL¶
SFT의 문제점¶
Supervised Fine-Tuning은 과신(overconfidence)을 유발:
RL의 개선 효과¶
강화학습은 abstention 최적화:
[RL 학습 후 행동]
- 잘못된 답변 → 페널티 → abstention 학습
- 올바른 abstention → 보상 → 신중한 행동
- 불필요한 abstention → 약한 페널티 → 균형
정량적 비교¶
| 측면 | SFT | RL |
|---|---|---|
| 정확도 | 중간 | 높음 |
| Calibration | 나쁨 | 좋음 |
| Overconfidence | 높음 | 낮음 |
| Abstention 품질 | 낮음 | 높음 |
7. 암묵적 vs 명시적 정보¶
실험 설계¶
| 정보 유형 | 설명 | 예시 |
|---|---|---|
| 원본 컨텍스트 | 전체 문서 | Wikipedia 문서 |
| 시간 서브컨텍스트 | 시점 관련 부분만 | 재임 기간 정보 |
| 지식 그래프 | 구조화된 시간 정보 | (엔티티, 시점, 관계) |
| CoT 명시적 | 단계별 추론 | "1단계: 시점 확인..." |
결과¶
| 정보 유형 | Abstention F1 |
|---|---|
| 원본 컨텍스트 | 0.58 |
| 시간 서브컨텍스트 | 0.61 |
| 지식 그래프 | 0.63 |
| CoT 명시적 | 0.72 |
결론: 암묵적 정보보다 명시적 CoT가 abstention 학습에 효과적
8. 구현 가이드¶
학습 파이프라인¶
1. 데이터 준비
- Answerable/Unanswerable 분류
- CoT 생성 (GPT-4 또는 수동)
2. SFT 단계
- CoT 포함 supervised learning
- 2-3 epoch
3. RL 단계
- Abstention-aware reward
- PPO 또는 DPO
- 신중한 학습률
4. 평가
- EM, TPR, FPR 측정
- Calibration 검증
핵심 하이퍼파라미터¶
| 파라미터 | SFT 단계 | RL 단계 |
|---|---|---|
| Learning Rate | 2e-5 | 1e-6 |
| Epochs | 3 | 1 |
| Batch Size | 32 | 16 |
| Abstention Penalty | - | -0.5 |
9. 참고 자료¶
- arXiv 원문
- 학회: ICLR 2026
- 관련 연구: Calibration, RLHF, Temporal Reasoning
정리일: 2026-03-01