분류 (Classification)¶
범주형 타겟을 예측하는 지도학습 기법
알고리즘 비교¶
| 알고리즘 | 장점 | 단점 | 복잡도 |
|---|---|---|---|
| Logistic Regression | 해석 용이, 확률 출력 | 선형만 | O(nd) |
| Decision Tree | 직관적, 비선형 | 과적합 | O(n log n · d) |
| Random Forest | 과적합 방지, 안정적 | 느림, 메모리 | O(k · n log n · d) |
| XGBoost | 고성능, 정규화 | 튜닝 필요 | O(knd) |
| LightGBM | 빠름, 대용량 | 소규모에 과적합 | O(knd) |
선택 플로우¶
해석이 중요한가?
├─ Yes → Logistic Regression / Decision Tree
└─ No → 데이터 크기?
├─ < 50K → Random Forest
├─ 50K-500K → XGBoost
└─ > 500K → LightGBM
평가 지표¶
- Accuracy: 전체 정확도
- Precision: 양성 예측 중 실제 양성
- Recall: 실제 양성 중 예측 양성
- F1-Score: Precision-Recall 조화평균
- AUC-ROC: 분류 임계값 독립 평가