LLM 기초 (Large Language Model Fundamentals)¶

대규모 언어 모델의 이론적 기반과 핵심 원리. 언어 모델링의 수학적 정의부터 현대 LLM의 작동 방식까지 상세히 다룬다.

1. 언어 모델링의 이론적 기반¶

1.1 언어 모델의 정의¶

언어 모델(Language Model)은 단어 시퀀스에 확률을 부여하는 함수다.

\[P(w_1, w_2, ..., w_n)\]

Chain Rule(확률의 곱 법칙)을 적용하면:

\[P(w_{1:n}) = \prod_{i=1}^{n} P(w_i | w_{1:i-1})\]

즉, 전체 시퀀스의 확률은 각 단어가 이전 문맥에서 등장할 조건부 확률의 곱.

핵심 과제: $P(w_i | w_{1:i-1})$ 추정 — 이전 단어들이 주어졌을 때 다음 단어의 확률 분포를 학습하는 것.

1.2 Shannon의 정보 이론과 언어¶

Claude Shannon(1948)의 "A Mathematical Theory of Communication"은 언어를 확률적 정보 소스로 모델링했다.

개념	수식	언어 모델에서의 의미
엔트로피	$H(X) = -\sum P(x) \log_2 P(x)$	언어의 본질적 불확실성 (bits/symbol)
교차 엔트로피	$H(P,Q) = -\sum P(x) \log_2 Q(x)$	모델 Q가 실제 분포 P를 얼마나 잘 근사하는가
KL Divergence	$D_{KL}(P \\| Q) = H(P,Q) - H(P)$	P와 Q의 차이 (항상 ≥ 0)
Perplexity	$PPL = 2^{H(P,Q)}$	모델이 평균적으로 고려하는 선택지 수

Shannon은 영어의 엔트로피를 0.6~1.3 bits/character로 추정했다. 이는 영어가 75% 이상 압축 가능함을 의미함.

1.3 Cross-Entropy Loss의 이론적 근거¶

모델 $Q_\theta$를 학습시켜 실제 언어 분포 $P$에 가깝게 만드는 것이 목표:

\[\min_\theta H(P, Q_\theta) = \min_\theta \mathbb{E}_{x \sim P}[-\log Q_\theta(x)]\]

왜 Cross-Entropy인가?

$H(P, Q) = H(P) + D_{KL}(P \| Q)$
$H(P)$는 상수 (데이터 분포의 엔트로피)
따라서 $\min H(P,Q) \Leftrightarrow \min D_{KL}(P \| Q)$

Cross-Entropy 최소화 = KL Divergence 최소화 = 모델이 실제 분포에 가까워짐

1.4 Perplexity 상세 분석¶

\[\text{PPL} = \exp\left(-\frac{1}{T}\sum_{t=1}^{T} \log P(x_t | x_{<t})\right) = 2^{H(P,Q)}\]

PPL 값	해석	예시
1	완벽한 예측 (다음 토큰 100% 확신)	불가능
10	평균 10개 선택지 중 고민	매우 좋음
50	평균 50개 선택지	양호
100+	매우 불확실	개선 필요

현대 LLM의 PPL (Wikipedia 기준): - GPT-2 (1.5B): ~29 - GPT-3 (175B): ~20 - Llama 2 (70B): ~5-7

2. 언어 모델의 역사적 발전¶

2.1 통계적 언어 모델: N-gram (1980s-2000s)¶

Markov 가정: 다음 단어는 직전 n-1개 단어에만 의존

\[P(w_i | w_1, ..., w_{i-1}) \approx P(w_i | w_{i-n+1}, ..., w_{i-1})\]

N-gram	조건 문맥	파라미터 수	예시
Unigram	없음	O(V)	$P(\text{dog})$
Bigram	1개	O(V²)	$P(\text{dog} \\| \text{the})$
Trigram	2개	O(V³)	$P(\text{dog} \\| \text{the}, \text{big})$

Maximum Likelihood Estimation:

\[P(w_i | w_{i-1}) = \frac{\text{Count}(w_{i-1}, w_i)}{\text{Count}(w_{i-1})}\]

스무딩 기법 (희소성 해결): - Add-k Smoothing: $P(w_i|w_{i-1}) = \frac{C(w_{i-1}, w_i) + k}{C(w_{i-1}) + k|V|}$ - Kneser-Ney Smoothing: 더 정교한 백오프 방식 - Good-Turing Estimation

한계: - 차원의 저주: n이 커지면 파라미터가 기하급수적 증가 - 희소성: 대부분의 n-gram은 학습 데이터에서 관찰되지 않음 - 일반화 불가: "the big dog"을 봐도 "the large dog"을 이해 못함

2.2 신경망 언어 모델 (2003)¶

핵심 논문: A Neural Probabilistic Language Model (Bengio et al., 2003)

혁신적 아이디어: 단어를 연속 벡터 공간에 임베딩

Neural Language Model (2003)

왜 혁신적이었나: 1. 분산 표현: 유사한 단어는 유사한 벡터 → 일반화 가능 2. 파라미터 공유: 비슷한 문맥 → 비슷한 예측 3. 연속 공간: 보간(interpolation) 가능

2.3 Word2Vec과 분산 가설 (2013)¶

핵심 논문: Efficient Estimation of Word Representations (Mikolov et al., 2013)

분산 가설 (Distributional Hypothesis):

"You shall know a word by the company it keeps." — J.R. Firth (1957)

단어의 의미는 그것이 등장하는 문맥에 의해 결정됨.

Word2Vec 학습 목표:

Skip-gram: 중심 단어로 주변 단어 예측 $$\max \sum_{t=1}^{T} \sum_{-c \leq j \leq c, j \neq 0} \log P(w_{t+j} | w_t)$$

CBOW: 주변 단어로 중심 단어 예측 $$\max \sum_{t=1}^{T} \log P(w_t | w_{t-c}, ..., w_{t-1}, w_{t+1}, ..., w_{t+c})$$

임베딩의 대수적 구조:

\[\vec{\text{king}} - \vec{\text{man}} + \vec{\text{woman}} \approx \vec{\text{queen}}\]

관계 유형	예시 벡터 연산
성별	king - man + woman ≈ queen
국가-수도	Paris - France + Japan ≈ Tokyo
시제	walking - walk + swim ≈ swimming
비교급	bigger - big + small ≈ smaller

2.4 순환 신경망: RNN, LSTM, GRU (2014-2016)¶

RNN의 핵심: 은닉 상태 $h_t$가 전체 이전 문맥을 압축

\[h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$$ $$P(w_t | w_{1:t-1}) = \text{softmax}(W_{hy} h_{t-1} + b_y)\]

문제: Vanishing/Exploding Gradient

LSTM (Hochreiter & Schmidhuber, 1997):

게이트 메커니즘으로 장기 의존성 학습:

\[f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) \quad \text{(Forget Gate)}$$ $$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \quad \text{(Input Gate)}$$ $$\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) \quad \text{(Candidate)}$$ $$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t \quad \text{(Cell State)}$$ $$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \quad \text{(Output Gate)}$$ $$h_t = o_t \odot \tanh(C_t)\]

GRU (Cho et al., 2014): LSTM의 단순화 버전 (2개 게이트)

한계: - 순차 처리: 병렬화 불가능 → 학습 속도 제한 - Bottleneck: 모든 정보가 고정 크기 벡터에 압축

2.5 Attention 메커니즘 (2014-2015)¶

핵심 논문: Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau et al., 2014)

아이디어: 디코더가 인코더의 모든 은닉 상태에 동적으로 집중

\[\alpha_{t,s} = \frac{\exp(e_{t,s})}{\sum_{s'} \exp(e_{t,s'})}$$ $$c_t = \sum_s \alpha_{t,s} h_s\]

이것이 나중에 Transformer의 Self-Attention으로 발전함.

2.6 Transformer (2017)¶

핵심 논문: Attention Is All You Need (Vaswani et al., 2017)

핵심 혁신: RNN 없이 Self-Attention만으로 시퀀스 처리

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]

Transformer Architecture

왜 $\sqrt{d_k}$로 나누는가?

$Q$와 $K$가 평균 0, 분산 1인 독립 성분을 가지면: $$\text{Var}(q \cdot k) = d_k$$

내적 값이 커지면 softmax가 포화(saturation) → gradient 소실 $\sqrt{d_k}$로 나눠 분산을 1로 유지

RNN vs Transformer 비교:

특성	RNN	Transformer
장거리 연결	O(n) 스텝	O(1) 직접 연결
병렬화	불가능	완전 병렬
계산 복잡도	O(n·d²)	O(n²·d)
위치 정보	암묵적 (순서)	명시적 (PE)

3. 아키텍처 패러다임¶

3.1 Encoder-Only (BERT 계열)¶

핵심 논문: BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018)

학습 목표:

Masked Language Model (MLM): 15% 토큰을 마스킹하고 복원 $$\mathcal{L}_{MLM} = -\sum_{i \in M} \log P(x_i | x_{\setminus M})$$
Next Sentence Prediction (NSP): 두 문장이 연속인지 분류

특징: - 양방향 문맥: 모든 토큰이 전체 문맥을 볼 수 있음 - 표현 학습: 풍부한 문맥 임베딩 생성 - 용도: 분류, NER, QA 등 이해 태스크

입력:  [CLS] The cat [MASK] on the mat [SEP]
                         ↓
문맥:  ◀───────────────────────────────────▶ (양방향)
                         ↓
예측:              sat

3.2 Decoder-Only (GPT 계열)¶

핵심 논문: - Improving Language Understanding by Generative Pre-Training (GPT-1, Radford et al., 2018) - Language Models are Unsupervised Multitask Learners (GPT-2, 2019) - Language Models are Few-Shot Learners (GPT-3, Brown et al., 2020)

학습 목표: 다음 토큰 예측 (Autoregressive)

\[\mathcal{L}_{AR} = -\sum_{t=1}^{T} \log P(x_t | x_{<t})\]

Causal Masking: 미래 토큰을 볼 수 없음

입력:  [The] [cat] [sat] [on]  [the]
마스킹:  ✓     ✓     ✓     ✓     ✓
         │     │     │     │     │
         ▼     ▼     ▼     ▼     ▼
        [cat] [sat] [on] [the] [mat]

왜 Decoder-Only가 주류가 되었나?:

단순성: 하나의 목표 (다음 토큰 예측)
생성 능력: 자연스러운 텍스트 생성
스케일링: 모델 크기와 데이터에 따라 성능 예측 가능
In-Context Learning: 추가 학습 없이 새 태스크 수행

3.3 Encoder-Decoder (T5 계열)¶

핵심 논문: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2019)

아이디어: 모든 NLP 태스크를 Text-to-Text로 통일

분류:    "sentiment: I love this movie" → "positive"
번역:    "translate English to German: Hello" → "Hallo"
요약:    "summarize: [long text]" → "[summary]"
QA:      "question: ... context: ..." → "[answer]"

4. 핵심 구성 요소¶

4.1 Tokenization¶

핵심 논문: Neural Machine Translation of Rare Words with Subword Units (BPE, Sennrich et al., 2015)

방식	알고리즘	사용 모델
BPE	빈도 기반 병합	GPT-2, GPT-3, LLaMA
WordPiece	우도 기반 병합	BERT, DistilBERT
Unigram	확률적 토큰화	T5, mT5
SentencePiece	언어 무관	LLaMA, Gemma

BPE 알고리즘: 1. 문자 단위로 초기화 2. 가장 빈번한 인접 쌍 병합 3. 어휘 크기에 도달할 때까지 반복

초기:    l o w </w>    l o w e r </w>    n e w e s t </w>
Step 1:  lo w </w>     lo w e r </w>     n e w e s t </w>
Step 2:  low </w>      low e r </w>      n e w e s t </w>
Step 3:  low</w>       low e r </w>      n e w e s t </w>
...

4.2 Positional Encoding¶

문제: Self-Attention은 순서를 모름 (permutation equivariant)

Sinusoidal PE (Transformer 원본):

\[PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d})$$ $$PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d})\]

Rotary Position Embedding (RoPE):

핵심 논문: RoFormer: Enhanced Transformer with Rotary Position Embedding (Su et al., 2021)

\[f_q(x_m, m) = R_m x_m\]

여기서 $R_m$은 2D 회전 행렬: $$R_m = \begin{pmatrix} \cos(m\theta) & -\sin(m\theta) \\ \sin(m\theta) & \cos(m\theta) \end{pmatrix}$$

장점: - 상대 위치 자동 인코딩 - 외삽(extrapolation) 가능 - 대부분의 최신 LLM에서 사용 (LLaMA, Mistral, GPT-4)

4.3 Normalization¶

방식	위치	특징	사용
Post-LN	Attention/FFN 후	원본 Transformer	BERT
Pre-LN	Attention/FFN 전	학습 안정성	GPT-2+
RMSNorm	Pre-LN 위치	더 효율적	LLaMA, Mistral

RMSNorm: $$\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum x_i^2 + \epsilon}} \cdot \gamma$$

LayerNorm보다 빠름 (평균 계산 생략)

5. 학습 패러다임¶

5.1 사전학습 (Pre-training)¶

목표: 언어의 통계적 구조 학습

\[\mathcal{L}_{\text{pretrain}} = -\mathbb{E}_{x \sim \mathcal{D}} \left[ \sum_{t=1}^{T} \log P_\theta(x_t | x_{<t}) \right]\]

데이터 규모:

모델	토큰 수	데이터 소스
GPT-3	300B	웹, 책, Wikipedia
LLaMA	1.4T	웹, GitHub, arXiv
LLaMA 2	2T	웹, 책, 코드
Llama 3	15T+	웹, 다국어

5.2 지시 미세조정 (Supervised Fine-Tuning, SFT)¶

핵심 논문: Training language models to follow instructions (InstructGPT, Ouyang et al., 2022)

목표: 지시를 따르는 응답 생성

\[\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x,y) \sim \mathcal{D}_{\text{instruct}}} \left[ \sum_{t} \log P_\theta(y_t | x, y_{<t}) \right]\]

데이터 형식:

User: 파이썬으로 피보나치 함수를 작성해줘.
Assistant: 네, 피보나치 수열을 계산하는 파이썬 함수입니다:

def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

5.3 RLHF (Reinforcement Learning from Human Feedback)¶

핵심 논문: Training language models to follow instructions (InstructGPT, 2022)

3단계 프로세스:

RLHF Pipeline

PPO 목표 함수:

\[\max_\theta \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta} \left[ r_\phi(x, y) - \beta \cdot D_{KL}(\pi_\theta(y|x) \| \pi_{\text{ref}}(y|x)) \right]\]

5.4 DPO (Direct Preference Optimization)¶

핵심 논문: Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023)

아이디어: Reward Model 없이 직접 선호도 학습

\[\mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right]\]

$y_w$: 선호되는 응답 (winner)
$y_l$: 비선호 응답 (loser)
$\beta$: Temperature

장점: - Reward Model 불필요 → 단순함 - 안정적 학습 (RL 불안정성 회피) - 메모리 효율적

6. 스케일링 법칙¶

6.1 Kaplan Scaling Laws (2020)¶

핵심 논문: Scaling Laws for Neural Language Models (Kaplan et al., 2020)

모델 성능(Loss)은 세 요소의 멱법칙:

\[L(N, D, C) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + L_\infty\]

요소	기호	지수 α
파라미터 수	N	~0.076
데이터 크기	D	~0.095
컴퓨팅	C	~0.050

의미: - 10배 많은 파라미터 → Loss ~21% 감소 - 10배 많은 데이터 → Loss ~25% 감소

6.2 Chinchilla Scaling Laws (2022)¶

핵심 논문: Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)

핵심 발견: 기존 모델들은 과소 학습(undertrained)!

Chinchilla 최적 비율: $$\text{Optimal Tokens} \approx 20 \times \text{Parameters}$$

모델	파라미터	토큰	최적 토큰	상태
GPT-3	175B	300B	3.5T	과소 학습
Gopher	280B	300B	5.6T	과소 학습
Chinchilla	70B	1.4T	1.4T	최적
LLaMA	65B	1.4T	1.3T	근접

실용적 함의: 같은 컴퓨팅으로 더 작은 모델을 더 오래 학습시키는 게 효율적

6.3 창발적 능력 (Emergent Abilities)¶

핵심 논문: Emergent Abilities of Large Language Models (Wei et al., 2022)

특정 스케일을 넘으면 갑자기 출현하는 능력:

능력	출현 임계값 (대략)	설명
Few-shot Learning	~10B	예시만으로 새 태스크
Chain-of-Thought	~100B	단계별 추론
Word in Context	~10B	문맥 기반 의미 파악
Multi-step Arithmetic	~100B	다단계 계산

논쟁:

Are Emergent Abilities of Large Language Models a Mirage? (Schaeffer et al., 2023)

창발이 실제인가, 측정 방식의 artifact인가?
비선형 지표(accuracy)를 선형 지표(log-likelihood)로 바꾸면 점진적 향상
여전히 활발히 논의 중

7. 추론 최적화¶

7.1 KV Cache¶

문제: 자기회귀 생성에서 매 토큰마다 이전 토큰들의 K, V 재계산

해결: 이전 토큰들의 K, V를 캐시

Step t:   새로운 Q_t만 계산, K_{1:t-1}, V_{1:t-1}은 캐시에서
          K_t, V_t 계산 후 캐시에 추가

메모리 비용: $$\text{KV Cache} = 2 \times L \times n \times d \times \text{batch}$$

L: 레이어 수
n: 시퀀스 길이
d: 히든 차원

7.2 샘플링 전략¶

방법	설명	파라미터
Greedy	가장 확률 높은 토큰	-
Temperature	확률 분포 조절	T (0.1~2.0)
Top-k	상위 k개에서 샘플링	k (10~100)
Top-p (Nucleus)	누적 확률 p까지	p (0.9~0.95)
Beam Search	여러 경로 탐색	beam width

Temperature: $$P(x_i) = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}$$

T 값	효과
T < 1	더 확신 (deterministic)
T = 1	기본
T > 1	더 다양 (creative)

8. 토픽 목록 (하위 문서)¶

토픽	내용	링크
Transformer	아키텍처 상세, 변형	바로가기
Attention	Multi-Head, Efficient Attention	바로가기
Embedding	Token, Position Embedding	바로가기
Tokenization	BPE, SentencePiece 상세	바로가기
Prompting	CoT, Few-shot, ReAct	바로가기
Fine-tuning	LoRA, QLoRA, PEFT	바로가기

9. LLM 발전 연대기¶

연도	모델/논문	파라미터	핵심 기여
2017	Transformer	65M	Self-Attention 아키텍처
2018	GPT-1	117M	Generative Pre-training
2018	BERT	340M	양방향 사전학습
2019	GPT-2	1.5B	스케일업, Zero-shot
2019	T5	11B	Text-to-Text 통합
2020	GPT-3	175B	Few-shot, 창발적 능력
2021	Codex	12B	코드 생성
2022	Chinchilla	70B	최적 스케일링
2022	ChatGPT	-	RLHF, 대화 최적화
2023	GPT-4	~1T?	멀티모달, 추론 강화
2023	LLaMA	65B	오픈소스, 효율적 학습
2023	Claude 2	-	긴 컨텍스트
2024	LLaMA 3	405B	오픈 SOTA
2024	Claude 3	-	멀티모달 통합
2024	GPT-4o	-	네이티브 멀티모달
2025	Claude 4	-	추론, 코딩 강화

10. 필수 논문 목록¶

기초 이론¶

논문	연도	핵심 내용
A Mathematical Theory of Communication (Shannon)	1948	정보 이론
A Neural Probabilistic Language Model (Bengio)	2003	신경망 LM
Word2Vec (Mikolov)	2013	단어 임베딩
GloVe (Pennington)	2014	전역 벡터

아키텍처¶

논문	연도	핵심 내용
Sequence to Sequence (Sutskever)	2014	Seq2Seq
Attention Mechanism (Bahdanau)	2014	어텐션
Transformer (Vaswani)	2017	Self-Attention
BERT (Devlin)	2018	양방향 사전학습
GPT-2 (Radford)	2019	스케일업
T5 (Raffel)	2019	Text-to-Text

스케일링 & LLM¶

논문	연도	핵심 내용
GPT-3 (Brown)	2020	Few-shot Learning
Scaling Laws (Kaplan)	2020	스케일링 법칙
Chinchilla (Hoffmann)	2022	최적 스케일링
InstructGPT (Ouyang)	2022	RLHF
LLaMA (Touvron)	2023	오픈 LLM
Llama 2 (Touvron)	2023	오픈 + RLHF

효율적 학습¶

논문	연도	핵심 내용
LoRA (Hu)	2021	저랭크 적응
RoPE (Su)	2021	회전 위치 인코딩
DPO (Rafailov)	2023	직접 선호 최적화
QLoRA (Dettmers)	2023	양자화 + LoRA

추론 & 프롬프팅¶

논문	연도	핵심 내용
Chain-of-Thought (Wei)	2022	단계별 추론
Self-Consistency (Wang)	2022	다중 경로
ReAct (Yao)	2022	추론 + 행동
Tree of Thoughts (Yao)	2023	탐색 기반 추론

개념	수식	언어 모델에서의 의미
엔트로피	\(H(X) = -\sum P(x) \log_2 P(x)\)	언어의 본질적 불확실성 (bits/symbol)
교차 엔트로피	\(H(P,Q) = -\sum P(x) \log_2 Q(x)\)	모델 Q가 실제 분포 P를 얼마나 잘 근사하는가
KL Divergence	\(D_{KL}(P \\| Q) = H(P,Q) - H(P)\)	P와 Q의 차이 (항상 ≥ 0)
Perplexity	\(PPL = 2^{H(P,Q)}\)	모델이 평균적으로 고려하는 선택지 수