콘텐츠로 이동

EommyDocs

클러스터링 (Clustering)

상세

클러스터링 (Clustering)¶

비지도 학습의 핵심 기법으로, 레이블 없는 데이터에서 유사한 샘플들을 그룹화함.

기법 계보도¶

클러스터링
├── 중심 기반 (Centroid-based)
│   ├── K-Means (Lloyd, 1957/1982)
│   │   ├── K-Means++ (Arthur & Vassilvitskii, 2007)
│   │   └── Mini-Batch K-Means (Sculley, 2010)
│   └── K-Medoids / PAM (Kaufman & Rousseeuw, 1987)
│
├── 계층적 (Hierarchical)
│   ├── Agglomerative / Divisive (Ward, 1963; Lance & Williams, 1967)
│   └── BIRCH (Zhang, Ramakrishnan & Livny, 1996)
│
├── 밀도 기반 (Density-based)
│   ├── DBSCAN (Ester et al., 1996)
│   │   └── HDBSCAN (Campello, Moulavi & Sander, 2013)
│   └── OPTICS (Ankerst et al., 1999)
│
├── 분포 기반 (Distribution-based)
│   └── GMM (Dempster, Laird & Rubin, 1977 - EM algorithm)
│
└── 스펙트럼 (Spectral)
    └── Spectral Clustering (Shi & Malik, 2000; Ng, Jordan & Weiss, 2001)

분류 기준¶

카테고리	핵심 가정	클러스터 형태	대표 기법
중심 기반	클러스터는 중심점으로 표현됨	볼록(convex), 구형	K-Means
계층적	데이터는 계층 구조를 가짐	트리 형태	Agglomerative
밀도 기반	클러스터는 고밀도 영역	임의 형태	DBSCAN
분포 기반	데이터는 확률분포 혼합	타원형	GMM
스펙트럼	그래프 연결성 기반	임의 형태	Spectral

기법 선택 가이드¶

데이터 크기?
├── 소규모 (< 10K)
│   ├── 클러스터 수 알고 있음 → K-Means, GMM
│   ├── 클러스터 수 모름 → DBSCAN, Hierarchical
│   └── 계층 구조 필요 → Hierarchical
│
├── 중규모 (10K ~ 100K)
│   ├── 구형 클러스터 → Mini-Batch K-Means
│   ├── 비정형 클러스터 → HDBSCAN
│   └── 이상치 많음 → DBSCAN, K-Medoids
│
└── 대규모 (> 100K)
    ├── 구형 클러스터 → Mini-Batch K-Means
    └── 스트리밍 데이터 → BIRCH

평가 지표¶

지표	범위	최적값	레이블 필요	용도
Silhouette	[-1, 1]	1	No	내부 응집도 vs 분리도
Calinski-Harabasz	[0, ∞)	높을수록	No	분산 비율
Davies-Bouldin	[0, ∞)	0	No	클러스터 유사도

목차¶

중심 기반 (Centroid-based)¶

K-Means - 근본 알고리즘
K-Means++ - 초기화 개선
Mini-Batch K-Means - 스케일링
K-Medoids - 이상치에 강함

계층적 (Hierarchical)¶

Hierarchical Clustering - Agglomerative/Divisive
BIRCH - 대용량 처리

밀도 기반 (Density-based)¶

DBSCAN - 밀도 기반 근본
HDBSCAN - 가변 밀도
OPTICS - 밀도 순서

분포 기반 (Distribution-based)¶

GMM - Gaussian Mixture Model

스펙트럼 (Spectral)¶

Spectral Clustering - 그래프 기반

평가 지표 (Evaluation)¶