클러스터링 (Clustering)
비지도 학습의 핵심 기법으로, 레이블 없는 데이터에서 유사한 샘플들을 그룹화함.
기법 계보도
클러스터링
├── 중심 기반 (Centroid-based)
│ ├── K-Means (Lloyd, 1957/1982)
│ │ ├── K-Means++ (Arthur & Vassilvitskii, 2007)
│ │ └── Mini-Batch K-Means (Sculley, 2010)
│ └── K-Medoids / PAM (Kaufman & Rousseeuw, 1987)
│
├── 계층적 (Hierarchical)
│ ├── Agglomerative / Divisive (Ward, 1963; Lance & Williams, 1967)
│ └── BIRCH (Zhang, Ramakrishnan & Livny, 1996)
│
├── 밀도 기반 (Density-based)
│ ├── DBSCAN (Ester et al., 1996)
│ │ └── HDBSCAN (Campello, Moulavi & Sander, 2013)
│ └── OPTICS (Ankerst et al., 1999)
│
├── 분포 기반 (Distribution-based)
│ └── GMM (Dempster, Laird & Rubin, 1977 - EM algorithm)
│
└── 스펙트럼 (Spectral)
└── Spectral Clustering (Shi & Malik, 2000; Ng, Jordan & Weiss, 2001)
분류 기준
| 카테고리 |
핵심 가정 |
클러스터 형태 |
대표 기법 |
| 중심 기반 |
클러스터는 중심점으로 표현됨 |
볼록(convex), 구형 |
K-Means |
| 계층적 |
데이터는 계층 구조를 가짐 |
트리 형태 |
Agglomerative |
| 밀도 기반 |
클러스터는 고밀도 영역 |
임의 형태 |
DBSCAN |
| 분포 기반 |
데이터는 확률분포 혼합 |
타원형 |
GMM |
| 스펙트럼 |
그래프 연결성 기반 |
임의 형태 |
Spectral |
기법 선택 가이드
데이터 크기?
├── 소규모 (< 10K)
│ ├── 클러스터 수 알고 있음 → K-Means, GMM
│ ├── 클러스터 수 모름 → DBSCAN, Hierarchical
│ └── 계층 구조 필요 → Hierarchical
│
├── 중규모 (10K ~ 100K)
│ ├── 구형 클러스터 → Mini-Batch K-Means
│ ├── 비정형 클러스터 → HDBSCAN
│ └── 이상치 많음 → DBSCAN, K-Medoids
│
└── 대규모 (> 100K)
├── 구형 클러스터 → Mini-Batch K-Means
└── 스트리밍 데이터 → BIRCH
평가 지표
목차
중심 기반 (Centroid-based)
계층적 (Hierarchical)
밀도 기반 (Density-based)
분포 기반 (Distribution-based)
- GMM - Gaussian Mixture Model
스펙트럼 (Spectral)
평가 지표 (Evaluation)