통계학 (Statistics)¶
데이터 분석과 ML/DL 모델 이해를 위한 필수 통계 지식. 불확실성을 정량화하고 데이터로부터 의미 있는 결론을 도출하는 방법론.
왜 통계가 필요한가¶
ML/DL에서 통계가 등장하는 곳:
| 분야 | 통계 활용 |
|---|---|
| 모델 평가 | 신뢰 구간, 유의성 검정, 교차 검증 |
| 손실 함수 | 확률 분포 기반 설계 (MSE=정규분포, CE=베르누이) |
| 정규화 | L1=라플라스 사전, L2=가우시안 사전, Dropout |
| 베이지안 ML | 사전/사후 분포, 불확실성 정량화 |
| A/B 테스트 | 가설 검정, 표본 크기 산정, 다중 비교 |
| LLM | 샘플링 전략, perplexity, temperature |
| 생성 모델 | VAE, Diffusion, 잠재 분포 |
핵심 질문들: - 이 모델이 정말 더 좋은가, 아니면 우연인가? - 이 예측은 얼마나 신뢰할 수 있는가? - 데이터가 어떤 분포를 따르고, 어떤 손실 함수를 써야 하는가? - 불확실성을 어떻게 정량화하고 의사결정에 반영하는가?
토픽 목록¶
기술 통계 (Descriptive Statistics)¶
데이터 요약과 시각화의 기초.
- 다루는 내용: 중심 경향치(평균, 중앙값), 산포도(분산, IQR), 분포 형태(왜도, 첨도), 상관관계
- 실무 연결: EDA, 특성 선택, 데이터 품질 점검
확률론 (Probability Theory)¶
불확실성의 수학적 기반.
- 다루는 내용: 확률 공리, 조건부 확률, 베이즈 정리, 기댓값/분산, 정보 이론
- 실무 연결: Naive Bayes, Cross-Entropy 손실, KL divergence, 샘플링
확률 분포 (Probability Distributions)¶
데이터 생성 과정의 모델링.
- 다루는 내용: 이산 분포(베르누이, 포아송), 연속 분포(정규, 지수), 분포 선택 가이드
- 실무 연결: 손실 함수 설계, VAE, Dropout, 배치 정규화
가설 검정 (Hypothesis Testing)¶
표본에서 모집단 추론.
- 다루는 내용: p-value, t-test, ANOVA, 카이제곱, 다중 비교, 효과 크기
- 실무 연결: A/B 테스트, 모델 비교, 특성 유의성
베이지안 통계 (Bayesian Statistics)¶
불확실성의 확률적 표현.
- 다루는 내용: 사전/사후 분포, MCMC, 베이지안 딥러닝, 베이지안 최적화
- 실무 연결: 불확실성 추정, 하이퍼파라미터 튜닝, 정규화의 베이지안 해석
핵심 개념 요약¶
모집단과 표본¶
핵심: 표본에서 계산한 통계량으로 모집단의 모수를 추정함.
표기법 정리¶
| 기호 | 의미 | 모집단/표본 |
|---|---|---|
| \(\mu\) | 모평균 | 모집단 |
| \(\bar{x}\) | 표본 평균 | 표본 |
| \(\sigma\) | 모표준편차 | 모집단 |
| \(s\) | 표본 표준편차 | 표본 |
| \(n\) | 표본 크기 | 표본 |
| \(P(A)\) | 사건 A의 확률 | - |
| \(P(A\|B)\) | 조건부 확률 | - |
| \(E[X]\) | 기댓값 | - |
| \(Var(X)\) | 분산 | - |
| \(H_0\) | 귀무 가설 | 검정 |
| \(H_1\) | 대립 가설 | 검정 |
빈도주의 vs 베이지안¶
| 관점 | 확률의 의미 | 모수 | 추론 방식 |
|---|---|---|---|
| 빈도주의 | 장기적 빈도 | 고정된 미지의 값 | 점 추정 + 신뢰구간 |
| 베이지안 | 믿음의 정도 | 확률 변수 | 사후 분포 |
학습 순서¶
권장: - 기술 통계는 매 분석에 항상 수행 - 확률론과 분포는 손실 함수, 생성 모델 이해에 필수 - 가설 검정은 A/B 테스트, 모델 비교에 필수 - 베이지안은 불확실성이 중요한 응용에 심화
흔한 실수 요약¶
| 실수 | 올바른 이해 |
|---|---|
| 평균만 보고 판단 | 분포 전체를 시각화하라 |
| 상관 = 인과 | 상관관계는 인과관계가 아니다 |
| p < 0.05면 효과 있다 | 통계적 유의성 ≠ 실질적 중요성 |
| p > 0.05면 효과 없다 | 증거 부족일 뿐, 없다는 증거가 아님 |
| 정규분포 가정 | 실제 데이터는 대부분 정규분포 아님 |
| 작은 표본에서 확신 | 표본이 작으면 추정 오차가 큼 |
ML/DL 연결 요약¶
| 통계 개념 | ML/DL 응용 |
|---|---|
| 평균, 분산 | 배치 정규화, 가중치 초기화 |
| 조건부 확률 | Naive Bayes, 언어 모델 |
| 베이즈 정리 | 베이지안 추론, 스팸 필터 |
| 엔트로피, KL | Cross-entropy 손실, VAE |
| 정규분포 | MSE 손실, 가우시안 노이즈, 잠재 공간 |
| 베르누이/카테고리 | 분류 손실, Dropout, Softmax |
| 가설 검정 | A/B 테스트, 모델 비교 |
| 신뢰구간 | 불확실성 추정, 오차 범위 |
| MCMC | 베이지안 신경망, 하이퍼파라미터 샘플링 |
| 베이지안 최적화 | 하이퍼파라미터 튜닝 |
참고 자료¶
강의¶
- Statistics 110: Probability (Harvard) - 확률론 명강의
- StatQuest YouTube - 직관적 설명
- 3Blue1Brown - Probability - 시각적 수학
교재¶
- Think Stats (Allen B. Downey) - 프로그래머를 위한 통계
- Bayesian Data Analysis (Gelman et al.) - 베이지안 바이블
- All of Statistics (Wasserman) - 간결한 전체 개요
- Probabilistic Machine Learning (Murphy) - ML 관점 통계
실습¶
- Seeing Theory - 인터랙티브 시각화
- Distribution Explorer - 분포 탐색
- PyMC Documentation - 베이지안 구현
주의사항¶
- Statistics Done Wrong - 통계적 오류 사례
- ASA Statement on p-values - p-value 올바른 이해