콘텐츠로 이동
Data Prep
상세

Neural Scaling Laws

신경망 규모와 성능 관계를 설명하는 스케일링 법칙 정리.

개요

항목 내용
분류 Deep Learning Theory
핵심 아이디어 모델/데이터/컴퓨팅 규모와 성능의 거듭제곱 관계
중요성 모델 설계, 자원 할당 결정의 이론적 기반
원논문 Kaplan et al. (OpenAI, 2020)
NeurIPS 2025 Best Paper 수상 분야

핵심 공식

Kaplan Scaling Law (2020)

\[L(N, D, C) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + \left(\frac{C_c}{C}\right)^{\alpha_C}\]
  • \(L\): Loss
  • \(N\): 파라미터 수
  • \(D\): 데이터 토큰 수
  • \(C\): 컴퓨팅 (FLOPs)
  • \(\alpha\): 스케일링 지수 (~0.076)

개별 스케일링

파라미터 스케일링: $\(L(N) \propto N^{-0.076}\)$

데이터 스케일링: $\(L(D) \propto D^{-0.095}\)$

컴퓨팅 스케일링: $\(L(C) \propto C^{-0.050}\)$

Chinchilla Scaling (2022)

DeepMind의 수정된 법칙:

\[N_{opt} \propto C^{0.5}$$ $$D_{opt} \propto C^{0.5}\]

핵심 발견: 최적 학습을 위해 모델과 데이터를 동등하게 스케일업해야 함.

법칙 모델 중시 데이터 중시
Kaplan (2020) 높음 낮음
Chinchilla (2022) 동등 동등

주요 발견

1. Power Law 관계

┌─────────────────────────────────────────────────────────┐
│                 Scaling Law 시각화                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  Log(Loss)                                              │
│     │                                                   │
│     │  *                                                │
│     │    *                                              │
│     │      *  (기울기 = -α)                             │
│     │        *                                          │
│     │          *                                        │
│     │            *                                      │
│     │              *                                    │
│     └────────────────────────── Log(Scale)              │
│                                                         │
│  - 로그-로그 플롯에서 선형                              │
│  - 기울기 = 스케일링 지수                               │
│  - 매우 넓은 범위에서 유지 (6+ orders of magnitude)     │
│                                                         │
└─────────────────────────────────────────────────────────┘

2. Compute-Optimal Training

Chinchilla 비율: 20 tokens per parameter

모델 크기 최적 토큰 수 예시
1B 20B GPT-2 급
7B 140B LLaMA-7B
70B 1.4T LLaMA-70B
175B 3.5T GPT-3

3. Emergent Abilities

특정 규모를 넘으면 갑자기 나타나는 능력:

성능
  │              ┌──────────
  │              │  Emergent!
  │              │
  │ ─────────────┘
  └────────────────────────── 규모
        Threshold (e.g., 10B params)

예시: - Chain-of-Thought: ~100B - In-context Learning: ~1B - Mathematical Reasoning: ~10B

영역별 스케일링

Vision (ViT)

\[L(N) \propto N^{-0.065}\]
\[L(D) \propto D^{-0.083}\]

Language (LLM)

\[L(N) \propto N^{-0.076}\]

Multimodal

비전과 언어 컴포넌트의 독립적 스케일링 + 상호작용 효과.

Reinforcement Learning

보상(Reward)도 유사한 스케일링: $\(R(C) \propto C^{0.5}\)$

실무 적용

1. 최적 자원 배분

def optimal_allocation(compute_budget, cost_per_param, cost_per_token):
    """Chinchilla 기반 최적 배분"""
    # N ≈ D/20 (tokens per param)
    # Total cost = N * cost_param + D * cost_token
    # 제약: C = 6 * N * D (FLOPs)

    # 최적화 결과
    alpha = 0.5  # Chinchilla 지수

    N_opt = (compute_budget / 6) ** alpha
    D_opt = 20 * N_opt

    return {
        'params': N_opt,
        'tokens': D_opt,
        'flops': 6 * N_opt * D_opt
    }

2. 성능 예측

def predict_loss(params, tokens, base_loss=10.0):
    """스케일링 법칙 기반 Loss 예측"""
    alpha_n = 0.076
    alpha_d = 0.095

    # 기준점 (예: 1B params, 20B tokens)
    N_ref = 1e9
    D_ref = 20e9

    loss = base_loss * (
        (N_ref / params) ** alpha_n + 
        (D_ref / tokens) ** alpha_d
    )

    return loss

3. 학습 예산 계획

def training_budget(target_loss, current_loss, current_flops):
    """목표 Loss 달성에 필요한 컴퓨팅 추정"""
    alpha_c = 0.050

    # L(C) = L_0 * (C_0 / C)^alpha
    # C = C_0 * (L_0 / L)^(1/alpha)

    required_flops = current_flops * (current_loss / target_loss) ** (1 / alpha_c)

    return required_flops

최신 연구 (2025-2026)

NeurIPS 2025 Best Paper

Neural Scaling Laws 관련 이론적 발전:

주제 발견
스케일링 붕괴 특정 조건에서 법칙 이탈
Task-specific 지수 태스크별 다른 α 값
Data Quality 품질이 양보다 중요한 영역
Emergent 예측 창발 능력 임계점 예측

Data-Constrained Scaling

데이터가 제한될 때:

\[L(N, D) = L_N(N) + L_D(D) + \epsilon(N, D)\]
  • 반복 학습(epoch > 1)의 효율 감소
  • 합성 데이터 활용 필요성

Inference Scaling

추론 시간 스케일링 (테스트 타임 컴퓨팅):

\[\text{Accuracy} \propto \log(\text{Inference FLOPs})\]
  • Best-of-N 샘플링
  • Chain-of-Thought 길이
  • Tree Search (MCTS)

한계 및 고려사항

법칙의 한계

한계 설명
외삽 위험 관측 범위 밖 예측 불확실
태스크 의존성 모든 태스크에 동일하지 않음
아키텍처 의존성 Transformer 기준, 다른 아키텍처는 다를 수 있음
데이터 품질 품질 변수 미반영

실제 vs 이론

실제 학습 곡선
  │    이론 예측선
  │     /
  │    /
  │   /  * 실제 값 (노이즈)
  │  / *
  │ /*    * 
  │/*   *
  └────────────────
  • 실제 값은 노이즈 존재
  • 하이퍼파라미터 영향
  • 체크포인트 간 변동

핵심 논문

논문 연도 기여
Scaling Laws for Neural LMs 2020 원본 법칙 (OpenAI)
Chinchilla 2022 Compute-optimal (DeepMind)
Scaling Laws for RL 2023 RL 영역 확장
Scaling Laws for Downstream 2024 Fine-tuning 스케일링
Beyond Chinchilla 2024 Data-constrained 시나리오
NeurIPS 2025 Best Paper 2025 이론적 기반 강화

요약

Neural Scaling Laws는 모델 규모, 데이터 양, 컴퓨팅 자원과 성능 간의 거듭제곱(power law) 관계를 설명한다. Chinchilla 법칙에 따르면 모델과 데이터를 동등하게 스케일업하는 것이 최적이며, 이를 기반으로 자원 배분과 성능 예측이 가능하다. 단, 태스크와 데이터 품질에 따른 변동을 고려해야 한다.