산업별 데이터 분석¶
산업마다 데이터의 성격, 핵심 문제, 분석 접근법이 다르다. 이 문서는 각 산업의 특성을 이해하고 적절한 분석 방법을 선택하는 데 도움을 준다.
분석 철학¶
모든 산업에 공통으로 적용되는 원칙:
- 문제정의가 먼저다 - 데이터가 아니라 비즈니스 문제에서 시작
- 가설-검증 사이클 - 문제정의 → 가설설정 → 실험설계 → 검증 → 결과
- 데이터는 행동이다 - 숫자 뒤에 있는 고객/시장의 행동을 해석
- 지표는 의사결정을 위해 - 보기만 하는 지표는 무의미
산업별 상세 문서¶
이커머스/리테일¶
모든 고객 행동이 데이터로 기록되는 산업.
핵심 분석: - 상품 분석 (ABC, 롱테일) - 프로모션 분석 (할인 효과, 카니발라이제이션) - 계절성 대응 - 재고/물류 연결
특이점: 계절성 강함, 재고 리스크, 물류비 중요
핀테크/금융¶
리스크를 사고파는 산업. 규제가 분석 방법론까지 제약.
핵심 분석: - 리스크 분석 (신용 스코어, 연체율, PD/LGD/EAD) - 사기 탐지 (규칙 기반 + ML) - 규제 준수 (설명 가능성) - 고객 신용도 분석
특이점: 규제 준수 필수, 리스크 관리 중심, 장기 데이터 중요
부동산¶
위치가 가치의 핵심인 산업. 정책 영향이 크고 장기 사이클.
핵심 분석: - 가격 예측 (Hedonic Model, ML) - 수요 예측 (인구, 소득, 금리) - 공간 데이터 활용 (거리, 영역, 핫스팟) - 정책 영향 분석 (DID, 이벤트 스터디)
특이점: 공간 데이터 중요, 정책 영향 큼, 장기 사이클
물류/배송¶
시간과 공간의 제약을 극복하는 산업. 실시간성이 생명.
핵심 분석: - 수요 예측 (일별, 권역별, 시간대별) - 경로 최적화 (TSP, VRP, VRPTW) - 라스트마일 분석 (밀도, 배송 실패) - 실시간 데이터 활용 (동적 라우팅)
특이점: 실시간 데이터, 네트워크 효과, 라스트마일 비용
산업 비교¶
| 특성 | 이커머스 | 핀테크 | 부동산 | 물류 |
|---|---|---|---|---|
| 데이터 빈도 | 실시간 | 실시간/일별 | 월별/분기 | 실시간 |
| 핵심 지표 | 전환율, LTV | PD, 연체율 | 가격, 수익률 | 정시율, 비용 |
| 규제 영향 | 낮음 | 매우 높음 | 높음 | 중간 |
| 예측 난이도 | 중간 | 높음 | 높음 | 중간 |
| 공간 분석 | 낮음 | 낮음 | 매우 높음 | 높음 |
| 시계열 분석 | 높음 | 높음 | 중간 | 매우 높음 |
분석 도구 선택¶
산업별로 자주 사용하는 도구/기법:
이커머스: A/B 테스트, 코호트 분석, RFM, 추천 시스템
핀테크: 스코어카드, SHAP, 이상탐지, 시계열 예측
부동산: 공간 통계, Hedonic Model, DID, 시뮬레이션
물류: 최적화(OR-Tools), 시계열 예측, 클러스터링
공통 함정¶
- 산업 맥락 무시 - 다른 산업의 방법론을 그대로 적용
- 규제 간과 - 특히 금융/부동산에서 치명적
- 시간 척도 오해 - 이커머스의 "장기"와 부동산의 "장기"는 다름
- 외부 변수 무시 - 정책, 경기, 경쟁 환경의 영향
각 상세 문서에서 실제 분석 사례와 코드 예시 확인