Neural Scaling Laws¶
신경망 규모와 성능 관계를 설명하는 스케일링 법칙 정리.
개요¶
| 항목 | 내용 |
|---|---|
| 분류 | Deep Learning Theory |
| 핵심 아이디어 | 모델/데이터/컴퓨팅 규모와 성능의 거듭제곱 관계 |
| 중요성 | 모델 설계, 자원 할당 결정의 이론적 기반 |
| 원논문 | Kaplan et al. (OpenAI, 2020) |
| NeurIPS 2025 | Best Paper 수상 분야 |
핵심 공식¶
Kaplan Scaling Law (2020)¶
\[L(N, D, C) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + \left(\frac{C_c}{C}\right)^{\alpha_C}\]
- \(L\): Loss
- \(N\): 파라미터 수
- \(D\): 데이터 토큰 수
- \(C\): 컴퓨팅 (FLOPs)
- \(\alpha\): 스케일링 지수 (~0.076)
개별 스케일링¶
파라미터 스케일링: $\(L(N) \propto N^{-0.076}\)$
데이터 스케일링: $\(L(D) \propto D^{-0.095}\)$
컴퓨팅 스케일링: $\(L(C) \propto C^{-0.050}\)$
Chinchilla Scaling (2022)¶
DeepMind의 수정된 법칙:
\[N_{opt} \propto C^{0.5}$$
$$D_{opt} \propto C^{0.5}\]
핵심 발견: 최적 학습을 위해 모델과 데이터를 동등하게 스케일업해야 함.
| 법칙 | 모델 중시 | 데이터 중시 |
|---|---|---|
| Kaplan (2020) | 높음 | 낮음 |
| Chinchilla (2022) | 동등 | 동등 |
주요 발견¶
1. Power Law 관계¶
┌─────────────────────────────────────────────────────────┐
│ Scaling Law 시각화 │
├─────────────────────────────────────────────────────────┤
│ │
│ Log(Loss) │
│ │ │
│ │ * │
│ │ * │
│ │ * (기울기 = -α) │
│ │ * │
│ │ * │
│ │ * │
│ │ * │
│ └────────────────────────── Log(Scale) │
│ │
│ - 로그-로그 플롯에서 선형 │
│ - 기울기 = 스케일링 지수 │
│ - 매우 넓은 범위에서 유지 (6+ orders of magnitude) │
│ │
└─────────────────────────────────────────────────────────┘
2. Compute-Optimal Training¶
Chinchilla 비율: 20 tokens per parameter
| 모델 크기 | 최적 토큰 수 | 예시 |
|---|---|---|
| 1B | 20B | GPT-2 급 |
| 7B | 140B | LLaMA-7B |
| 70B | 1.4T | LLaMA-70B |
| 175B | 3.5T | GPT-3 |
3. Emergent Abilities¶
특정 규모를 넘으면 갑자기 나타나는 능력:
성능
│
│ ┌──────────
│ │ Emergent!
│ │
│ ─────────────┘
│
└────────────────────────── 규모
Threshold (e.g., 10B params)
예시: - Chain-of-Thought: ~100B - In-context Learning: ~1B - Mathematical Reasoning: ~10B
영역별 스케일링¶
Vision (ViT)¶
\[L(N) \propto N^{-0.065}\]
\[L(D) \propto D^{-0.083}\]
Language (LLM)¶
\[L(N) \propto N^{-0.076}\]
Multimodal¶
비전과 언어 컴포넌트의 독립적 스케일링 + 상호작용 효과.
Reinforcement Learning¶
보상(Reward)도 유사한 스케일링: $\(R(C) \propto C^{0.5}\)$
실무 적용¶
1. 최적 자원 배분¶
def optimal_allocation(compute_budget, cost_per_param, cost_per_token):
"""Chinchilla 기반 최적 배분"""
# N ≈ D/20 (tokens per param)
# Total cost = N * cost_param + D * cost_token
# 제약: C = 6 * N * D (FLOPs)
# 최적화 결과
alpha = 0.5 # Chinchilla 지수
N_opt = (compute_budget / 6) ** alpha
D_opt = 20 * N_opt
return {
'params': N_opt,
'tokens': D_opt,
'flops': 6 * N_opt * D_opt
}
2. 성능 예측¶
def predict_loss(params, tokens, base_loss=10.0):
"""스케일링 법칙 기반 Loss 예측"""
alpha_n = 0.076
alpha_d = 0.095
# 기준점 (예: 1B params, 20B tokens)
N_ref = 1e9
D_ref = 20e9
loss = base_loss * (
(N_ref / params) ** alpha_n +
(D_ref / tokens) ** alpha_d
)
return loss
3. 학습 예산 계획¶
def training_budget(target_loss, current_loss, current_flops):
"""목표 Loss 달성에 필요한 컴퓨팅 추정"""
alpha_c = 0.050
# L(C) = L_0 * (C_0 / C)^alpha
# C = C_0 * (L_0 / L)^(1/alpha)
required_flops = current_flops * (current_loss / target_loss) ** (1 / alpha_c)
return required_flops
최신 연구 (2025-2026)¶
NeurIPS 2025 Best Paper¶
Neural Scaling Laws 관련 이론적 발전:
| 주제 | 발견 |
|---|---|
| 스케일링 붕괴 | 특정 조건에서 법칙 이탈 |
| Task-specific 지수 | 태스크별 다른 α 값 |
| Data Quality | 품질이 양보다 중요한 영역 |
| Emergent 예측 | 창발 능력 임계점 예측 |
Data-Constrained Scaling¶
데이터가 제한될 때:
\[L(N, D) = L_N(N) + L_D(D) + \epsilon(N, D)\]
- 반복 학습(epoch > 1)의 효율 감소
- 합성 데이터 활용 필요성
Inference Scaling¶
추론 시간 스케일링 (테스트 타임 컴퓨팅):
\[\text{Accuracy} \propto \log(\text{Inference FLOPs})\]
- Best-of-N 샘플링
- Chain-of-Thought 길이
- Tree Search (MCTS)
한계 및 고려사항¶
법칙의 한계¶
| 한계 | 설명 |
|---|---|
| 외삽 위험 | 관측 범위 밖 예측 불확실 |
| 태스크 의존성 | 모든 태스크에 동일하지 않음 |
| 아키텍처 의존성 | Transformer 기준, 다른 아키텍처는 다를 수 있음 |
| 데이터 품질 | 품질 변수 미반영 |
실제 vs 이론¶
- 실제 값은 노이즈 존재
- 하이퍼파라미터 영향
- 체크포인트 간 변동
핵심 논문¶
| 논문 | 연도 | 기여 |
|---|---|---|
| Scaling Laws for Neural LMs | 2020 | 원본 법칙 (OpenAI) |
| Chinchilla | 2022 | Compute-optimal (DeepMind) |
| Scaling Laws for RL | 2023 | RL 영역 확장 |
| Scaling Laws for Downstream | 2024 | Fine-tuning 스케일링 |
| Beyond Chinchilla | 2024 | Data-constrained 시나리오 |
| NeurIPS 2025 Best Paper | 2025 | 이론적 기반 강화 |
요약¶
Neural Scaling Laws는 모델 규모, 데이터 양, 컴퓨팅 자원과 성능 간의 거듭제곱(power law) 관계를 설명한다. Chinchilla 법칙에 따르면 모델과 데이터를 동등하게 스케일업하는 것이 최적이며, 이를 기반으로 자원 배분과 성능 예측이 가능하다. 단, 태스크와 데이터 품질에 따른 변동을 고려해야 한다.