콘텐츠로 이동
Data Prep
상세

Progressive Thought Encoding: 대규모 추론 모델의 효율적 학습

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

항목 내용
arXiv 2602.16839
저자 Xiaodong Liu et al.
발표 2026-02-18
학회 ICLR 2026
카테고리 cs.LG, cs.CL

1. 문제 정의

Large Reasoning Models (LRMs)의 병목

LRM(예: o1, o3)은 복잡한 문제에서 뛰어난 성능을 보이지만, RL 학습에 근본적 병목이 존재:

[RL 학습의 문제]

복잡한 수학 문제 → 긴 추론 과정 (1000+ 토큰)
         전체 롤아웃에 대한 역전파 필요
         메모리 폭발 + 학습 시간 증가

구체적 문제

문제 설명
메모리 전체 KV 캐시 저장 필요
시간 긴 시퀀스 순차 처리
스케일링 추론 길이에 비례하여 비용 증가

Sliding Window의 한계

메모리 절약을 위한 sliding window 전략:

[Sliding Window 문제]

전체 추론: [Step1][Step2][Step3][Step4][Step5]...
Window:         [Step3][Step4][Step5] ← 이전 맥락 손실

→ 장거리 의존성 파괴
→ 추론 성능 저하

2. Progressive Thought Encoding

핵심 아이디어

중간 추론 과정을 고정 크기 벡터로 점진적 압축:

[Progressive Encoding]

Step 1: 생각1 → Encoder → [Vec1]
Step 2: [Vec1] + 생각2 → Encoder → [Vec2]
Step 3: [Vec2] + 생각3 → Encoder → [Vec3]
...
고정 크기 벡터에 전체 추론 과정 압축

수학적 정의

\[h_t = f_\theta(h_{t-1}, x_t)\]
  • \(h_t\): t단계까지의 추론을 압축한 벡터
  • \(x_t\): t단계의 새로운 추론 토큰
  • \(f_\theta\): 인코딩 함수 (학습 대상)

특징: - \(\dim(h_t) = \dim(h_{t-1})\) (고정 크기) - 전체 캐시 저장 불필요 - Forward pass만으로 압축


3. 아키텍처 상세

Thought Encoder

┌─────────────────────────────────────────────┐
│           Thought Encoder Block             │
├─────────────────────────────────────────────┤
│                                             │
│  이전 압축 벡터 h_{t-1}                      │
│         ↓                                   │
│  [Cross-Attention with new thoughts]        │
│         ↓                                   │
│  [Feed-Forward Network]                     │
│         ↓                                   │
│  [Residual + LayerNorm]                     │
│         ↓                                   │
│  새 압축 벡터 h_t                            │
│                                             │
└─────────────────────────────────────────────┘

RL 학습 파이프라인

기존 방식 vs Progressive Thought Encoding:

[기존 RL 학습]
문제 → [LRM 롤아웃] → 전체 추론 과정 (1000 토큰)
       전체 시퀀스에 대한 역전파 (메모리 폭발)

[Progressive Thought Encoding]
문제 → [LRM 롤아웃] → 추론 과정
              ↓              ↓
       점진적 인코딩     고정 크기 h_t
       h_t만으로 보상 계산 및 업데이트
       (메모리 일정)

메모리 사용량 비교

방법 메모리 사용량 추론 길이 의존성
Full cache O(L × d) 선형 증가
Sliding window O(W × d) 맥락 손실
Progressive O(d) 일정
  • L: 추론 길이
  • W: 윈도우 크기
  • d: hidden dimension

4. LoRA 기반 파인튜닝

효율적 학습 전략

Thought Encoder를 LoRA로 학습:

\[W' = W + BA\]

장점: - 원본 LRM 가중치 보존 - 적은 학습 파라미터 - 빠른 수렴

학습 목표

\[\mathcal{L} = \mathcal{L}_{task} + \lambda \cdot \mathcal{L}_{reconstruction}\]
  • \(\mathcal{L}_{task}\): 태스크 손실 (정답 여부)
  • \(\mathcal{L}_{reconstruction}\): 압축 벡터로부터 추론 복원 손실

5. 실험 결과

수학 벤치마크 성능

모델 AIME2024 AIME2025 MATH500
LRM (no FT) 52.3% 48.1% 71.2%
LRM + LoRA 61.8% 56.9% 78.5%
LRM + Progressive 75.7% 71.5% 85.4%

향상폭 비교

비교 대상 평균 향상
vs LRM (no FT) +29.9%
vs LoRA FT +19.3%
AIME 최대 향상 +23.4%

메모리/시간 효율성

동일 하드웨어에서:

방법 GPU 메모리 학습 시간
Full backprop 80GB (OOM) -
Gradient checkpointing 45GB 1x
Progressive 24GB 0.6x

6. 분석

압축 품질 분석

압축 벡터가 추론 정보를 얼마나 보존하는지:

추론 길이 정보 보존율
100 토큰 98%
500 토큰 95%
1000 토큰 92%
2000 토큰 88%

결론: 긴 추론에서도 핵심 정보 유지

캐시 크기별 성능

제한된 캐시 예산에서의 성능:

[AIME2024 정확도 vs 캐시 크기]

캐시 512:  Progressive ████████░░ 72%
           Sliding     ███░░░░░░░ 31%

캐시 256:  Progressive ███████░░░ 68%
           Sliding     ██░░░░░░░░ 22%

캐시 128:  Progressive █████░░░░░ 58%
           Sliding     █░░░░░░░░░ 15%

7. 구현 가이드

핵심 구성요소

class ProgressiveThoughtEncoder(nn.Module):
    def __init__(self, hidden_dim, num_heads):
        self.cross_attn = CrossAttention(hidden_dim, num_heads)
        self.ffn = FeedForward(hidden_dim)
        self.norm = LayerNorm(hidden_dim)

    def forward(self, prev_state, new_thoughts):
        # Cross-attention: 이전 상태와 새 생각 결합
        attended = self.cross_attn(prev_state, new_thoughts)
        # FFN + Residual
        new_state = self.norm(prev_state + self.ffn(attended))
        return new_state

하이퍼파라미터

파라미터 설명
State dim 2048 압축 벡터 차원
LoRA rank 32 LoRA 랭크
Chunk size 64 청크당 토큰 수
Learning rate 1e-4 학습률

8. 한계점 및 향후 연구

현재 한계

  1. 초기 정보 손실: 매우 긴 추론에서 초기 정보 희석
  2. 도메인 특이성: 수학 외 도메인 검증 필요
  3. 디코딩 속도: 압축/복원 오버헤드

향후 방향

  • 계층적 압축 (여러 해상도)
  • 선택적 정보 보존
  • 다른 추론 모델(o3 등)에 적용

9. 참고 자료

  • arXiv 원문
  • 학회: ICLR 2026
  • 관련 연구: Large Reasoning Models, Memory-Efficient Training, KV Cache Compression

정리일: 2026-03-01