Neural Scaling Laws¶

신경망 규모와 성능 관계를 설명하는 스케일링 법칙 정리.

개요¶

항목	내용
분류	Deep Learning Theory
핵심 아이디어	모델/데이터/컴퓨팅 규모와 성능의 거듭제곱 관계
중요성	모델 설계, 자원 할당 결정의 이론적 기반
원논문	Kaplan et al. (OpenAI, 2020)
NeurIPS 2025	Best Paper 수상 분야

핵심 공식¶

Kaplan Scaling Law (2020)¶

\[L(N, D, C) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + \left(\frac{C_c}{C}\right)^{\alpha_C}\]

$L$: Loss
$N$: 파라미터 수
$D$: 데이터 토큰 수
$C$: 컴퓨팅 (FLOPs)
$\alpha$: 스케일링 지수 (~0.076)

개별 스케일링¶

파라미터 스케일링: $$L(N) \propto N^{-0.076}$$

데이터 스케일링: $$L(D) \propto D^{-0.095}$$

컴퓨팅 스케일링: $$L(C) \propto C^{-0.050}$$

Chinchilla Scaling (2022)¶

DeepMind의 수정된 법칙:

\[N_{opt} \propto C^{0.5}$$ $$D_{opt} \propto C^{0.5}\]

핵심 발견: 최적 학습을 위해 모델과 데이터를 동등하게 스케일업해야 함.

법칙	모델 중시	데이터 중시
Kaplan (2020)	높음	낮음
Chinchilla (2022)	동등	동등

주요 발견¶

1. Power Law 관계¶

┌─────────────────────────────────────────────────────────┐
│                 Scaling Law 시각화                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  Log(Loss)                                              │
│     │                                                   │
│     │  *                                                │
│     │    *                                              │
│     │      *  (기울기 = -α)                             │
│     │        *                                          │
│     │          *                                        │
│     │            *                                      │
│     │              *                                    │
│     └────────────────────────── Log(Scale)              │
│                                                         │
│  - 로그-로그 플롯에서 선형                              │
│  - 기울기 = 스케일링 지수                               │
│  - 매우 넓은 범위에서 유지 (6+ orders of magnitude)     │
│                                                         │
└─────────────────────────────────────────────────────────┘

2. Compute-Optimal Training¶

Chinchilla 비율: 20 tokens per parameter

모델 크기	최적 토큰 수	예시
1B	20B	GPT-2 급
7B	140B	LLaMA-7B
70B	1.4T	LLaMA-70B
175B	3.5T	GPT-3

3. Emergent Abilities¶

특정 규모를 넘으면 갑자기 나타나는 능력:

성능
  │
  │              ┌──────────
  │              │  Emergent!
  │              │
  │ ─────────────┘
  │
  └────────────────────────── 규모
        Threshold (e.g., 10B params)

예시: - Chain-of-Thought: ~100B - In-context Learning: ~1B - Mathematical Reasoning: ~10B

영역별 스케일링¶

Vision (ViT)¶

\[L(N) \propto N^{-0.065}\]

\[L(D) \propto D^{-0.083}\]

Language (LLM)¶

\[L(N) \propto N^{-0.076}\]

Multimodal¶

비전과 언어 컴포넌트의 독립적 스케일링 + 상호작용 효과.

Reinforcement Learning¶

보상(Reward)도 유사한 스케일링: $$R(C) \propto C^{0.5}$$

실무 적용¶

1. 최적 자원 배분¶

def optimal_allocation(compute_budget, cost_per_param, cost_per_token):
    """Chinchilla 기반 최적 배분"""
    # N ≈ D/20 (tokens per param)
    # Total cost = N * cost_param + D * cost_token
    # 제약: C = 6 * N * D (FLOPs)

    # 최적화 결과
    alpha = 0.5  # Chinchilla 지수

    N_opt = (compute_budget / 6) ** alpha
    D_opt = 20 * N_opt

    return {
        'params': N_opt,
        'tokens': D_opt,
        'flops': 6 * N_opt * D_opt
    }

2. 성능 예측¶

def predict_loss(params, tokens, base_loss=10.0):
    """스케일링 법칙 기반 Loss 예측"""
    alpha_n = 0.076
    alpha_d = 0.095

    # 기준점 (예: 1B params, 20B tokens)
    N_ref = 1e9
    D_ref = 20e9

    loss = base_loss * (
        (N_ref / params) ** alpha_n + 
        (D_ref / tokens) ** alpha_d
    )

    return loss

3. 학습 예산 계획¶

def training_budget(target_loss, current_loss, current_flops):
    """목표 Loss 달성에 필요한 컴퓨팅 추정"""
    alpha_c = 0.050

    # L(C) = L_0 * (C_0 / C)^alpha
    # C = C_0 * (L_0 / L)^(1/alpha)

    required_flops = current_flops * (current_loss / target_loss) ** (1 / alpha_c)

    return required_flops

한계 및 고려사항¶

법칙의 한계¶

한계	설명
외삽 위험	관측 범위 밖 예측 불확실
태스크 의존성	모든 태스크에 동일하지 않음
아키텍처 의존성	Transformer 기준, 다른 아키텍처는 다를 수 있음
데이터 품질	품질 변수 미반영

실제 vs 이론¶

실제 학습 곡선
  │
  │    이론 예측선
  │     /
  │    /
  │   /  * 실제 값 (노이즈)
  │  / *
  │ /*    * 
  │/*   *
  └────────────────

실제 값은 노이즈 존재
하이퍼파라미터 영향
체크포인트 간 변동

핵심 논문¶

논문	연도	기여
Scaling Laws for Neural LMs	2020	원본 법칙 (OpenAI)
Chinchilla	2022	Compute-optimal (DeepMind)
Scaling Laws for RL	2023	RL 영역 확장
Scaling Laws for Downstream	2024	Fine-tuning 스케일링
Beyond Chinchilla	2024	Data-constrained 시나리오
NeurIPS 2025 Best Paper	2025	이론적 기반 강화

요약¶

Neural Scaling Laws는 모델 규모, 데이터 양, 컴퓨팅 자원과 성능 간의 거듭제곱(power law) 관계를 설명한다. Chinchilla 법칙에 따르면 모델과 데이터를 동등하게 스케일업하는 것이 최적이며, 이를 기반으로 자원 배분과 성능 예측이 가능하다. 단, 태스크와 데이터 품질에 따른 변동을 고려해야 한다.

주제	발견
스케일링 붕괴	특정 조건에서 법칙 이탈
Task-specific 지수	태스크별 다른 α 값
Data Quality	품질이 양보다 중요한 영역
Emergent 예측	창발 능력 임계점 예측