Progressive Thought Encoding: 대규모 추론 모델의 효율적 학습¶

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

항목	내용
arXiv	2602.16839
저자	Xiaodong Liu et al.
발표	2026-02-18
학회	ICLR 2026
카테고리	cs.LG, cs.CL

1. 문제 정의¶

Large Reasoning Models (LRMs)의 병목¶

LRM(예: o1, o3)은 복잡한 문제에서 뛰어난 성능을 보이지만, RL 학습에 근본적 병목이 존재:

[RL 학습의 문제]

복잡한 수학 문제 → 긴 추론 과정 (1000+ 토큰)
                      ↓
         전체 롤아웃에 대한 역전파 필요
                      ↓
         메모리 폭발 + 학습 시간 증가

구체적 문제¶

문제	설명
메모리	전체 KV 캐시 저장 필요
시간	긴 시퀀스 순차 처리
스케일링	추론 길이에 비례하여 비용 증가

Sliding Window의 한계¶

메모리 절약을 위한 sliding window 전략:

[Sliding Window 문제]

전체 추론: [Step1][Step2][Step3][Step4][Step5]...
Window:         [Step3][Step4][Step5] ← 이전 맥락 손실

→ 장거리 의존성 파괴
→ 추론 성능 저하

2. Progressive Thought Encoding¶

핵심 아이디어¶

중간 추론 과정을 고정 크기 벡터로 점진적 압축:

[Progressive Encoding]

Step 1: 생각1 → Encoder → [Vec1]
Step 2: [Vec1] + 생각2 → Encoder → [Vec2]
Step 3: [Vec2] + 생각3 → Encoder → [Vec3]
...
         ↓
고정 크기 벡터에 전체 추론 과정 압축

수학적 정의¶

\[h_t = f_\theta(h_{t-1}, x_t)\]

\(h_t\): t단계까지의 추론을 압축한 벡터
\(x_t\): t단계의 새로운 추론 토큰
\(f_\theta\): 인코딩 함수 (학습 대상)

특징: - \(\dim(h_t) = \dim(h_{t-1})\) (고정 크기) - 전체 캐시 저장 불필요 - Forward pass만으로 압축

3. 아키텍처 상세¶

Thought Encoder¶

┌─────────────────────────────────────────────┐
│           Thought Encoder Block             │
├─────────────────────────────────────────────┤
│                                             │
│  이전 압축 벡터 h_{t-1}                      │
│         ↓                                   │
│  [Cross-Attention with new thoughts]        │
│         ↓                                   │
│  [Feed-Forward Network]                     │
│         ↓                                   │
│  [Residual + LayerNorm]                     │
│         ↓                                   │
│  새 압축 벡터 h_t                            │
│                                             │
└─────────────────────────────────────────────┘

RL 학습 파이프라인¶

기존 방식 vs Progressive Thought Encoding:

[기존 RL 학습]
문제 → [LRM 롤아웃] → 전체 추론 과정 (1000 토큰)
                          ↓
       전체 시퀀스에 대한 역전파 (메모리 폭발)

[Progressive Thought Encoding]
문제 → [LRM 롤아웃] → 추론 과정
              ↓              ↓
       점진적 인코딩     고정 크기 h_t
              ↓
       h_t만으로 보상 계산 및 업데이트
       (메모리 일정)

메모리 사용량 비교¶

방법	메모리 사용량	추론 길이 의존성
Full cache	O(L × d)	선형 증가
Sliding window	O(W × d)	맥락 손실
Progressive	O(d)	일정

L: 추론 길이
W: 윈도우 크기
d: hidden dimension

4. LoRA 기반 파인튜닝¶

효율적 학습 전략¶

Thought Encoder를 LoRA로 학습:

\[W' = W + BA\]

장점: - 원본 LRM 가중치 보존 - 적은 학습 파라미터 - 빠른 수렴

학습 목표¶

\[\mathcal{L} = \mathcal{L}_{task} + \lambda \cdot \mathcal{L}_{reconstruction}\]

\(\mathcal{L}_{task}\): 태스크 손실 (정답 여부)
\(\mathcal{L}_{reconstruction}\): 압축 벡터로부터 추론 복원 손실

5. 실험 결과¶

수학 벤치마크 성능¶

모델	AIME2024	AIME2025	MATH500
LRM (no FT)	52.3%	48.1%	71.2%
LRM + LoRA	61.8%	56.9%	78.5%
LRM + Progressive	75.7%	71.5%	85.4%

향상폭 비교¶

비교 대상	평균 향상
vs LRM (no FT)	+29.9%
vs LoRA FT	+19.3%
AIME 최대 향상	+23.4%

메모리/시간 효율성¶

동일 하드웨어에서:

방법	GPU 메모리	학습 시간
Full backprop	80GB (OOM)	-
Gradient checkpointing	45GB	1x
Progressive	24GB	0.6x

6. 분석¶

압축 품질 분석¶

압축 벡터가 추론 정보를 얼마나 보존하는지:

추론 길이	정보 보존율
100 토큰	98%
500 토큰	95%
1000 토큰	92%
2000 토큰	88%

결론: 긴 추론에서도 핵심 정보 유지

캐시 크기별 성능¶

제한된 캐시 예산에서의 성능:

[AIME2024 정확도 vs 캐시 크기]

캐시 512:  Progressive ████████░░ 72%
           Sliding     ███░░░░░░░ 31%

캐시 256:  Progressive ███████░░░ 68%
           Sliding     ██░░░░░░░░ 22%

캐시 128:  Progressive █████░░░░░ 58%
           Sliding     █░░░░░░░░░ 15%

7. 구현 가이드¶

핵심 구성요소¶

class ProgressiveThoughtEncoder(nn.Module):
    def __init__(self, hidden_dim, num_heads):
        self.cross_attn = CrossAttention(hidden_dim, num_heads)
        self.ffn = FeedForward(hidden_dim)
        self.norm = LayerNorm(hidden_dim)

    def forward(self, prev_state, new_thoughts):
        # Cross-attention: 이전 상태와 새 생각 결합
        attended = self.cross_attn(prev_state, new_thoughts)
        # FFN + Residual
        new_state = self.norm(prev_state + self.ffn(attended))
        return new_state

하이퍼파라미터¶

파라미터	값	설명
State dim	2048	압축 벡터 차원
LoRA rank	32	LoRA 랭크
Chunk size	64	청크당 토큰 수
Learning rate	1e-4	학습률

8. 한계점 및 향후 연구¶

현재 한계¶

초기 정보 손실: 매우 긴 추론에서 초기 정보 희석
도메인 특이성: 수학 외 도메인 검증 필요
디코딩 속도: 압축/복원 오버헤드

향후 방향¶

계층적 압축 (여러 해상도)
선택적 정보 보존
다른 추론 모델(o3 등)에 적용

9. 참고 자료¶

arXiv 원문
학회: ICLR 2026
관련 연구: Large Reasoning Models, Memory-Efficient Training, KV Cache Compression

정리일: 2026-03-01