콘텐츠로 이동
Data Prep
상세

통계학 (Statistics)

데이터 분석과 ML/DL 모델 이해를 위한 필수 통계 지식. 불확실성을 정량화하고 데이터로부터 의미 있는 결론을 도출하는 방법론.

왜 통계가 필요한가

ML/DL에서 통계가 등장하는 곳:

분야 통계 활용
모델 평가 신뢰 구간, 유의성 검정, 교차 검증
손실 함수 확률 분포 기반 설계 (MSE=정규분포, CE=베르누이)
정규화 L1=라플라스 사전, L2=가우시안 사전, Dropout
베이지안 ML 사전/사후 분포, 불확실성 정량화
A/B 테스트 가설 검정, 표본 크기 산정, 다중 비교
LLM 샘플링 전략, perplexity, temperature
생성 모델 VAE, Diffusion, 잠재 분포

핵심 질문들: - 이 모델이 정말 더 좋은가, 아니면 우연인가? - 이 예측은 얼마나 신뢰할 수 있는가? - 데이터가 어떤 분포를 따르고, 어떤 손실 함수를 써야 하는가? - 불확실성을 어떻게 정량화하고 의사결정에 반영하는가?


토픽 목록

기술 통계 (Descriptive Statistics)

데이터 요약과 시각화의 기초.

  • 다루는 내용: 중심 경향치(평균, 중앙값), 산포도(분산, IQR), 분포 형태(왜도, 첨도), 상관관계
  • 실무 연결: EDA, 특성 선택, 데이터 품질 점검

기술 통계 →

확률론 (Probability Theory)

불확실성의 수학적 기반.

  • 다루는 내용: 확률 공리, 조건부 확률, 베이즈 정리, 기댓값/분산, 정보 이론
  • 실무 연결: Naive Bayes, Cross-Entropy 손실, KL divergence, 샘플링

확률론 →

확률 분포 (Probability Distributions)

데이터 생성 과정의 모델링.

  • 다루는 내용: 이산 분포(베르누이, 포아송), 연속 분포(정규, 지수), 분포 선택 가이드
  • 실무 연결: 손실 함수 설계, VAE, Dropout, 배치 정규화

확률 분포 →

가설 검정 (Hypothesis Testing)

표본에서 모집단 추론.

  • 다루는 내용: p-value, t-test, ANOVA, 카이제곱, 다중 비교, 효과 크기
  • 실무 연결: A/B 테스트, 모델 비교, 특성 유의성

가설 검정 →

베이지안 통계 (Bayesian Statistics)

불확실성의 확률적 표현.

  • 다루는 내용: 사전/사후 분포, MCMC, 베이지안 딥러닝, 베이지안 최적화
  • 실무 연결: 불확실성 추정, 하이퍼파라미터 튜닝, 정규화의 베이지안 해석

베이지안 통계 →


핵심 개념 요약

모집단과 표본

README diagram 1

핵심: 표본에서 계산한 통계량으로 모집단의 모수를 추정함.

표기법 정리

기호 의미 모집단/표본
\(\mu\) 모평균 모집단
\(\bar{x}\) 표본 평균 표본
\(\sigma\) 모표준편차 모집단
\(s\) 표본 표준편차 표본
\(n\) 표본 크기 표본
\(P(A)\) 사건 A의 확률 -
\(P(A\|B)\) 조건부 확률 -
\(E[X]\) 기댓값 -
\(Var(X)\) 분산 -
\(H_0\) 귀무 가설 검정
\(H_1\) 대립 가설 검정

빈도주의 vs 베이지안

관점 확률의 의미 모수 추론 방식
빈도주의 장기적 빈도 고정된 미지의 값 점 추정 + 신뢰구간
베이지안 믿음의 정도 확률 변수 사후 분포

학습 순서

README diagram 2

권장: - 기술 통계는 매 분석에 항상 수행 - 확률론과 분포는 손실 함수, 생성 모델 이해에 필수 - 가설 검정은 A/B 테스트, 모델 비교에 필수 - 베이지안은 불확실성이 중요한 응용에 심화


흔한 실수 요약

실수 올바른 이해
평균만 보고 판단 분포 전체를 시각화하라
상관 = 인과 상관관계는 인과관계가 아니다
p < 0.05면 효과 있다 통계적 유의성 ≠ 실질적 중요성
p > 0.05면 효과 없다 증거 부족일 뿐, 없다는 증거가 아님
정규분포 가정 실제 데이터는 대부분 정규분포 아님
작은 표본에서 확신 표본이 작으면 추정 오차가 큼

ML/DL 연결 요약

통계 개념 ML/DL 응용
평균, 분산 배치 정규화, 가중치 초기화
조건부 확률 Naive Bayes, 언어 모델
베이즈 정리 베이지안 추론, 스팸 필터
엔트로피, KL Cross-entropy 손실, VAE
정규분포 MSE 손실, 가우시안 노이즈, 잠재 공간
베르누이/카테고리 분류 손실, Dropout, Softmax
가설 검정 A/B 테스트, 모델 비교
신뢰구간 불확실성 추정, 오차 범위
MCMC 베이지안 신경망, 하이퍼파라미터 샘플링
베이지안 최적화 하이퍼파라미터 튜닝

참고 자료

강의

교재

  • Think Stats (Allen B. Downey) - 프로그래머를 위한 통계
  • Bayesian Data Analysis (Gelman et al.) - 베이지안 바이블
  • All of Statistics (Wasserman) - 간결한 전체 개요
  • Probabilistic Machine Learning (Murphy) - ML 관점 통계

실습

주의사항