콘텐츠로 이동
Data Prep
상세

클러스터링 (Clustering)

비지도 학습의 핵심 기법으로, 레이블 없는 데이터에서 유사한 샘플들을 그룹화함.

기법 계보도

클러스터링
├── 중심 기반 (Centroid-based)
│   ├── K-Means (Lloyd, 1957/1982)
│   │   ├── K-Means++ (Arthur & Vassilvitskii, 2007)
│   │   └── Mini-Batch K-Means (Sculley, 2010)
│   └── K-Medoids / PAM (Kaufman & Rousseeuw, 1987)
├── 계층적 (Hierarchical)
│   ├── Agglomerative / Divisive (Ward, 1963; Lance & Williams, 1967)
│   └── BIRCH (Zhang, Ramakrishnan & Livny, 1996)
├── 밀도 기반 (Density-based)
│   ├── DBSCAN (Ester et al., 1996)
│   │   └── HDBSCAN (Campello, Moulavi & Sander, 2013)
│   └── OPTICS (Ankerst et al., 1999)
├── 분포 기반 (Distribution-based)
│   └── GMM (Dempster, Laird & Rubin, 1977 - EM algorithm)
└── 스펙트럼 (Spectral)
    └── Spectral Clustering (Shi & Malik, 2000; Ng, Jordan & Weiss, 2001)

분류 기준

카테고리 핵심 가정 클러스터 형태 대표 기법
중심 기반 클러스터는 중심점으로 표현됨 볼록(convex), 구형 K-Means
계층적 데이터는 계층 구조를 가짐 트리 형태 Agglomerative
밀도 기반 클러스터는 고밀도 영역 임의 형태 DBSCAN
분포 기반 데이터는 확률분포 혼합 타원형 GMM
스펙트럼 그래프 연결성 기반 임의 형태 Spectral

기법 선택 가이드

데이터 크기?
├── 소규모 (< 10K)
│   ├── 클러스터 수 알고 있음 → K-Means, GMM
│   ├── 클러스터 수 모름 → DBSCAN, Hierarchical
│   └── 계층 구조 필요 → Hierarchical
├── 중규모 (10K ~ 100K)
│   ├── 구형 클러스터 → Mini-Batch K-Means
│   ├── 비정형 클러스터 → HDBSCAN
│   └── 이상치 많음 → DBSCAN, K-Medoids
└── 대규모 (> 100K)
    ├── 구형 클러스터 → Mini-Batch K-Means
    └── 스트리밍 데이터 → BIRCH

평가 지표

지표 범위 최적값 레이블 필요 용도
Silhouette [-1, 1] 1 No 내부 응집도 vs 분리도
Calinski-Harabasz [0, ∞) 높을수록 No 분산 비율
Davies-Bouldin [0, ∞) 0 No 클러스터 유사도

목차

중심 기반 (Centroid-based)

계층적 (Hierarchical)

밀도 기반 (Density-based)

분포 기반 (Distribution-based)

  • GMM - Gaussian Mixture Model

스펙트럼 (Spectral)

평가 지표 (Evaluation)