Temporal QA에서 LLM의 Abstention 학습¶

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA?

항목	내용
arXiv	2602.04755
저자	Xinyu Zhou et al.
발표	2026-02-04
학회	ICLR 2026
카테고리	cs.CL, cs.AI

1. 문제 정의¶

LLM의 과신 문제¶

LLM은 불확실성을 인정하지 않고 유창한 답변을 생성하는 경향:

[일반적 LLM 행동]
Q: "2021년 3월 기준 테슬라 CEO는?"
A: "일론 머스크입니다." ✓ (정확)

Q: "2019년 3월 기준 트위터 CEO는?"
A: "일론 머스크입니다." ✗ (당시 잭 도시)
         ↑
    시간 구분 실패

Temporal QA의 특수성¶

시간에 민감한 질의응답의 어려움:

시점별 정답 변화: 같은 질문도 시점에 따라 답이 다름
답변 불가능 질문: 미래 또는 데이터 부재 시점
시간 정보 혼동: 여러 시점의 정보 혼합

2. Abstention (답변 보류) 개념¶

정의¶

Abstention: 답변이 불확실하거나 불가능할 때 "모른다"고 응답하는 능력

[Abstention이 필요한 경우]

1. 시점 데이터 없음
Q: "2030년 대통령은?"
A: "미래의 일이라 알 수 없습니다." ✓

2. 학습 데이터 범위 외
Q: "2025년 10월 유가는?"
A: "제 학습 데이터 이후의 정보입니다." ✓

3. 모호한 질문
Q: "그때 날씨는?"
A: "시점과 장소를 명시해 주세요." ✓

기존 접근법의 한계¶

방법	문제점
Calibration	복잡한 추론에서 불확실성 포착 어려움
Prompting	일관성 없는 abstention
Threshold	시점별 임계값 설정 어려움

3. 제안 방법론¶

3.1 Abstention as a Teachable Skill¶

Abstention을 학습 가능한 스킬로 프레이밍:

[학습 데이터 구성]

Answerable 예시:
- Q: "2020년 미국 대통령은?"
- A: "도널드 트럼프입니다."

Unanswerable 예시:
- Q: "2035년 미국 대통령은?"
- A: "[ABSTAIN] 미래의 일이라 알 수 없습니다."

3.2 Chain-of-Thought (CoT) Supervision¶

시간 추론 과정을 명시적으로 학습:

Q: "2019년 6월 기준 아마존 CEO는?"

CoT:
1. 현재 시점 확인: 2019년 6월
2. 관련 사실 검색: 제프 베조스는 1994-2021년 CEO
3. 시점 비교: 2019년 6월 < 2021년 (재임 중)
4. 결론: 제프 베조스

A: "제프 베조스입니다."

3.3 Abstention-Aware RL¶

강화학습으로 abstention 정책 최적화:

보상 함수 설계:

\[R(a, q) = \begin{cases} +1 & \text{if correct answer or correct abstention} \\ -1 & \text{if wrong answer} \\ -0.5 & \text{if unnecessary abstention (could answer)} \end{cases}\]

정책 최적화:

\[\mathcal{L}_{RL} = -\mathbb{E}_{q \sim D}[\sum_t R(a_t, q) \log \pi_\theta(a_t|q, h_t)]\]

4. 실험 설정¶

데이터셋¶

데이터셋	특징	예시
TimeQA-Easy	단순 시점 질의	"2020년 대통령은?"
TimeQA-Hard	복잡한 시간 추론	"X 이후 첫 올림픽 개최지는?"
TempQuestions	시간 간격 추론	"A와 B 사이에 무슨 일이?"

평가 지표¶

Exact Match (EM): 정확히 일치하는 답변 비율
True Positive Rate (TPR): Unanswerable 올바르게 abstain
False Positive Rate (FPR): Answerable 잘못 abstain
F1 Score: 전체 성능

5. 실험 결과¶

주요 성능 비교¶

모델	TimeQA-Easy EM	TimeQA-Hard EM
GPT-4o	71.2%	58.4%
Claude-3	68.5%	55.1%
Qwen2.5-1.5B (기본)	52.3%	38.9%
Qwen2.5-1.5B (제안)	74.7%	64.2%

GPT-4o 대비 향상¶

벤치마크	향상폭
TimeQA-Easy	+3.46%
TimeQA-Hard	+5.80%

Unanswerable 질문 처리¶

설정	TPR (Abstention 정확도)
SFT only	52%
SFT + RL	72%
향상	+20%p

6. 분석: SFT vs RL¶

SFT의 문제점¶

Supervised Fine-Tuning은 과신(overconfidence)을 유발:

[SFT 학습 후 행동]
- 학습 데이터: 정답 위주 → "항상 답해야 한다" 학습
- 결과: 모를 때도 답변 시도 → 오류 증가

RL의 개선 효과¶

강화학습은 abstention 최적화:

[RL 학습 후 행동]
- 잘못된 답변 → 페널티 → abstention 학습
- 올바른 abstention → 보상 → 신중한 행동
- 불필요한 abstention → 약한 페널티 → 균형

정량적 비교¶

측면	SFT	RL
정확도	중간	높음
Calibration	나쁨	좋음
Overconfidence	높음	낮음
Abstention 품질	낮음	높음

7. 암묵적 vs 명시적 정보¶

실험 설계¶

정보 유형	설명	예시
원본 컨텍스트	전체 문서	Wikipedia 문서
시간 서브컨텍스트	시점 관련 부분만	재임 기간 정보
지식 그래프	구조화된 시간 정보	(엔티티, 시점, 관계)
CoT 명시적	단계별 추론	"1단계: 시점 확인..."

결과¶

정보 유형	Abstention F1
원본 컨텍스트	0.58
시간 서브컨텍스트	0.61
지식 그래프	0.63
CoT 명시적	0.72

결론: 암묵적 정보보다 명시적 CoT가 abstention 학습에 효과적

8. 구현 가이드¶

학습 파이프라인¶

1. 데이터 준비
   - Answerable/Unanswerable 분류
   - CoT 생성 (GPT-4 또는 수동)

2. SFT 단계
   - CoT 포함 supervised learning
   - 2-3 epoch

3. RL 단계
   - Abstention-aware reward
   - PPO 또는 DPO
   - 신중한 학습률

4. 평가
   - EM, TPR, FPR 측정
   - Calibration 검증

핵심 하이퍼파라미터¶

파라미터	SFT 단계	RL 단계
Learning Rate	2e-5	1e-6
Epochs	3	1
Batch Size	32	16
Abstention Penalty	-	-0.5

9. 참고 자료¶

arXiv 원문
학회: ICLR 2026
관련 연구: Calibration, RLHF, Temporal Reasoning

정리일: 2026-03-01