통계학 (Statistics)¶

데이터 분석과 ML/DL 모델 이해를 위한 필수 통계 지식. 불확실성을 정량화하고 데이터로부터 의미 있는 결론을 도출하는 방법론.

왜 통계가 필요한가¶

ML/DL에서 통계가 등장하는 곳:

분야	통계 활용
모델 평가	신뢰 구간, 유의성 검정, 교차 검증
손실 함수	확률 분포 기반 설계 (MSE=정규분포, CE=베르누이)
정규화	L1=라플라스 사전, L2=가우시안 사전, Dropout
베이지안 ML	사전/사후 분포, 불확실성 정량화
A/B 테스트	가설 검정, 표본 크기 산정, 다중 비교
LLM	샘플링 전략, perplexity, temperature
생성 모델	VAE, Diffusion, 잠재 분포

핵심 질문들: - 이 모델이 정말 더 좋은가, 아니면 우연인가? - 이 예측은 얼마나 신뢰할 수 있는가? - 데이터가 어떤 분포를 따르고, 어떤 손실 함수를 써야 하는가? - 불확실성을 어떻게 정량화하고 의사결정에 반영하는가?

토픽 목록¶

기술 통계 (Descriptive Statistics)¶

데이터 요약과 시각화의 기초.

다루는 내용: 중심 경향치(평균, 중앙값), 산포도(분산, IQR), 분포 형태(왜도, 첨도), 상관관계
실무 연결: EDA, 특성 선택, 데이터 품질 점검

기술 통계 →

확률론 (Probability Theory)¶

불확실성의 수학적 기반.

다루는 내용: 확률 공리, 조건부 확률, 베이즈 정리, 기댓값/분산, 정보 이론
실무 연결: Naive Bayes, Cross-Entropy 손실, KL divergence, 샘플링

확률론 →

확률 분포 (Probability Distributions)¶

데이터 생성 과정의 모델링.

다루는 내용: 이산 분포(베르누이, 포아송), 연속 분포(정규, 지수), 분포 선택 가이드
실무 연결: 손실 함수 설계, VAE, Dropout, 배치 정규화

확률 분포 →

가설 검정 (Hypothesis Testing)¶

표본에서 모집단 추론.

다루는 내용: p-value, t-test, ANOVA, 카이제곱, 다중 비교, 효과 크기
실무 연결: A/B 테스트, 모델 비교, 특성 유의성

가설 검정 →

베이지안 통계 (Bayesian Statistics)¶

불확실성의 확률적 표현.

다루는 내용: 사전/사후 분포, MCMC, 베이지안 딥러닝, 베이지안 최적화
실무 연결: 불확실성 추정, 하이퍼파라미터 튜닝, 정규화의 베이지안 해석

베이지안 통계 →

핵심 개념 요약¶

모집단과 표본¶

README diagram 1

핵심: 표본에서 계산한 통계량으로 모집단의 모수를 추정함.

표기법 정리¶

기호	의미	모집단/표본
\(\mu\)	모평균	모집단
\(\bar{x}\)	표본 평균	표본
\(\sigma\)	모표준편차	모집단
\(s\)	표본 표준편차	표본
\(n\)	표본 크기	표본
\(P(A)\)	사건 A의 확률	-
\(P(A\\|B)\)	조건부 확률	-
\(E[X]\)	기댓값	-
\(Var(X)\)	분산	-
\(H_0\)	귀무 가설	검정
\(H_1\)	대립 가설	검정

빈도주의 vs 베이지안¶

관점	확률의 의미	모수	추론 방식
빈도주의	장기적 빈도	고정된 미지의 값	점 추정 + 신뢰구간
베이지안	믿음의 정도	확률 변수	사후 분포

학습 순서¶

README diagram 2

권장: - 기술 통계는 매 분석에 항상 수행 - 확률론과 분포는 손실 함수, 생성 모델 이해에 필수 - 가설 검정은 A/B 테스트, 모델 비교에 필수 - 베이지안은 불확실성이 중요한 응용에 심화

흔한 실수 요약¶

실수	올바른 이해
평균만 보고 판단	분포 전체를 시각화하라
상관 = 인과	상관관계는 인과관계가 아니다
p < 0.05면 효과 있다	통계적 유의성 ≠ 실질적 중요성
p > 0.05면 효과 없다	증거 부족일 뿐, 없다는 증거가 아님
정규분포 가정	실제 데이터는 대부분 정규분포 아님
작은 표본에서 확신	표본이 작으면 추정 오차가 큼

ML/DL 연결 요약¶

통계 개념	ML/DL 응용
평균, 분산	배치 정규화, 가중치 초기화
조건부 확률	Naive Bayes, 언어 모델
베이즈 정리	베이지안 추론, 스팸 필터
엔트로피, KL	Cross-entropy 손실, VAE
정규분포	MSE 손실, 가우시안 노이즈, 잠재 공간
베르누이/카테고리	분류 손실, Dropout, Softmax
가설 검정	A/B 테스트, 모델 비교
신뢰구간	불확실성 추정, 오차 범위
MCMC	베이지안 신경망, 하이퍼파라미터 샘플링
베이지안 최적화	하이퍼파라미터 튜닝

참고 자료¶

강의¶

Statistics 110: Probability (Harvard) - 확률론 명강의
StatQuest YouTube - 직관적 설명
3Blue1Brown - Probability - 시각적 수학

교재¶

Think Stats (Allen B. Downey) - 프로그래머를 위한 통계
Bayesian Data Analysis (Gelman et al.) - 베이지안 바이블
All of Statistics (Wasserman) - 간결한 전체 개요
Probabilistic Machine Learning (Murphy) - ML 관점 통계

실습¶

Seeing Theory - 인터랙티브 시각화
Distribution Explorer - 분포 탐색
PyMC Documentation - 베이지안 구현

주의사항¶

Statistics Done Wrong - 통계적 오류 사례
ASA Statement on p-values - p-value 올바른 이해