콘텐츠로 이동

부동산 데이터 분석


산업 특성

부동산은 위치가 가치의 핵심인 산업이다. 동일한 면적, 동일한 건물이라도 위치에 따라 가격이 수십 배 차이난다.

주요 특성: - 거래 빈도가 낮고 거래 비용이 높음 - 정보 비대칭이 심함 (매도자 우위) - 정책/규제 영향이 매우 큼 - 장기 사이클 (5-10년 주기) - 개별성이 강함 (같은 단지도 동/호수마다 다름)

데이터 환경:

+------------------+     +------------------+     +------------------+
|   거래 데이터    |     |   공간 데이터    |     |   외부 데이터    |
+------------------+     +------------------+     +------------------+
| - 실거래가       |     | - 위치 좌표      |     | - 인구 통계      |
| - 호가/매물      |     | - 용도 지역      |     | - 경제 지표      |
| - 전월세         |     | - 교통망         |     | - 정책 변화      |
| - 경매           |     | - 편의시설       |     | - 개발 계획      |
+------------------+     +------------------+     +------------------+

핵심 문제

1. 가격 예측 모델

부동산 가격 결정 요인:

가격 = f(위치, 물건, 시장, 시간)

위치 요인:                물건 요인:
- 지역/상권              - 면적/구조
- 교통 접근성            - 층수/향
- 학군                   - 연식/상태
- 편의시설               - 브랜드

시장 요인:                시간 요인:
- 금리                   - 계절성
- 공급량                 - 경기 사이클
- 정책                   - 개발 호재

Hedonic Price Model (특성가격모형):

ln(가격) = b0 + b1*면적 + b2*층수 + b3*연식 + b4*역거리 + ... + e

장점: 해석 용이, 개별 특성의 가치 추정 가능
단점: 비선형 관계 포착 어려움, 상호작용 효과 누락

실무 적용:
- 아파트: R² 0.85 이상 가능
- 단독/다세대: R² 0.60-0.70 수준
- 상업용: 임대료, 공실률 등 수익 기반 모델 필요

머신러닝 접근:

+------------------+     +------------------+     +------------------+
|   Tabular Data   |     |   Spatial Data   |     |   Time Series    |
+------------------+     +------------------+     +------------------+
| XGBoost          |     | Spatial Lag      |     | ARIMA            |
| LightGBM         |     | GWR              |     | Prophet          |
| CatBoost         |     | Kriging          |     | LSTM             |
+------------------+     +------------------+     +------------------+
        |                        |                        |
        v                        v                        v
+------------------------------------------------------------------+
|                    Ensemble / Stacking                            |
+------------------------------------------------------------------+

가격 예측의 한계:

예측 가능한 것:
- 비슷한 물건의 적정 가격대
- 상대적 가치 비교
- 단기(3-6개월) 추세

예측 어려운 것:
- 정책 변화 (갑작스러운 규제)
- 급격한 시장 전환점
- 개별 거래의 정확한 가격

2. 수요 예측

수요에 영향을 주는 요인:

요인 지표 데이터 소스
인구 세대수, 연령 구성 통계청
소득 지역별 소득, 고용률 국세청, 고용부
금리 주담대 금리, 전세대출 금리 한국은행
공급 인허가, 분양, 입주 물량 국토부
정책 세금, 대출 규제 정부 발표

수요-공급 분석 프레임워크:

                    공급 부족        공급 과잉
               +-------------+-------------+
    수요       |             |             |
    증가       |  가격 급등  |  가격 안정  |
               +-------------+-------------+
    수요       |             |             |
    감소       |  가격 안정  |  가격 하락  |
               +-------------+-------------+

실무 적용:
- 입주 물량 vs 세대수 증가 비교
- 미분양 추이 모니터링
- 전세가율 변화 추적

지역별 수요 예측 모델:

-- 향후 3년 수요 추정 (신규 세대 형성 기준)
WITH population_forecast AS (
  SELECT 
    region,
    -- 25-35세 인구 (신규 세대 형성 연령)
    population_25_35 as target_pop,
    -- 연간 세대 형성률 (과거 데이터 기반)
    household_formation_rate,
    -- 예상 신규 수요
    population_25_35 * household_formation_rate as expected_demand
  FROM regional_demographics
  WHERE year = 2024
),
supply_forecast AS (
  SELECT 
    region,
    SUM(CASE WHEN completion_year = 2024 THEN units ELSE 0 END) as supply_2024,
    SUM(CASE WHEN completion_year = 2025 THEN units ELSE 0 END) as supply_2025,
    SUM(CASE WHEN completion_year = 2026 THEN units ELSE 0 END) as supply_2026
  FROM construction_permits
  GROUP BY region
)
SELECT 
  p.region,
  p.expected_demand,
  s.supply_2024, s.supply_2025, s.supply_2026,
  (p.expected_demand * 3) - (s.supply_2024 + s.supply_2025 + s.supply_2026) as gap
FROM population_forecast p
JOIN supply_forecast s ON p.region = s.region;

3. 공간 데이터 활용

공간 분석 기법:

1. 거리 기반 분석
   +------------------------------------------+
   | 역세권: 500m 이내 프리미엄              |
   | 학군: 배정 학교 기준 가격 차이          |
   | 혐오시설: 거리별 디스카운트              |
   +------------------------------------------+

2. 영역 분석 (Buffer/Polygon)
   +------------------------------------------+
   | 개발 예정지 반경 1km 내 가격 변화       |
   | 상권 경계 내 상가 임대료 분석           |
   | 재개발 구역 편입 여부에 따른 가치       |
   +------------------------------------------+

3. 핫스팟 분석
   +------------------------------------------+
   | 가격 상승 클러스터 탐지                  |
   | 거래량 급증 지역 식별                    |
   | 공실률 집중 지역 분석                    |
   +------------------------------------------+

공간 자기상관:

부동산 가격의 제1법칙:
"가까운 것은 먼 것보다 서로 관련이 있다" (Tobler)

공간 자기상관 측정:
- Moran's I: 전역적 군집 정도
- LISA: 지역별 군집 패턴

  I > 0: 유사한 값이 군집 (고가-고가, 저가-저가)
  I < 0: 상이한 값이 인접 (고가-저가)
  I = 0: 무작위 분포

실무 활용:
- 가격 급등 지역의 확산 패턴 분석
- 투자 유망 지역 스크리닝

좌표 데이터 활용 예시:

# 특정 지점 반경 내 편의시설 수 계산
from geopy.distance import geodesic

def count_amenities_within(lat, lon, amenities_df, radius_m=500):
    count = 0
    for _, row in amenities_df.iterrows():
        dist = geodesic((lat, lon), (row['lat'], row['lon'])).meters
        if dist <= radius_m:
            count += 1
    return count

# 가격 모델 feature로 활용
df['subway_500m'] = df.apply(
    lambda x: count_amenities_within(x['lat'], x['lon'], subway_df, 500), 
    axis=1
)

4. 정책 영향 분석

정책 유형별 영향:

정책 유형 예시 예상 영향
세금 종부세 강화, 양도세 중과 매물 감소, 가격 경직
대출 LTV/DTI 규제, 금리 인상 수요 감소, 거래량 감소
공급 신도시, 재개발 지정 기대감에 가격 상승
규제 분양가 상한제, 전매 제한 청약 과열, 중고 프리미엄

정책 효과 측정 (DID):

이중차분법 (Difference-in-Differences):

        정책 전     정책 후     차이
처리군    A1          A2       A2-A1 (처리 효과 + 시간 효과)
대조군    B1          B2       B2-B1 (시간 효과만)

순수 정책 효과 = (A2-A1) - (B2-B1)

예시: 조정대상지역 지정 효과
- 처리군: 지정된 지역
- 대조군: 인접하지만 지정 안 된 유사 지역
- 측정: 지정 전후 가격 변화 차이

이벤트 스터디:

정책 발표일 기준 가격 변화 추적:

     가격
     지수
       |            정책 발표
       |               |
   105 |               v     * *
       |              *|    *
   100 |----*---*---*--|---*-------
       |   *   *       |
    95 |  *            |
       +--+--+--+--+--+--+--+--+--+-- 시간
         -4 -3 -2 -1  0 +1 +2 +3 +4  (월)

해석:
- 발표 전: 루머/기대 반영 여부
- 발표 직후: 즉각적 반응
- 이후: 실제 효과 vs 기대 조정

분석 접근

부동산 분석의 특수성

1. 데이터 품질 이슈:

문제점:
- 실거래가: 신고가격 조작, 특수 거래 포함
- 호가: 허위 매물, 미반영 매물
- 시세: 주관적, 표준화 부족

대응:
- 이상치 탐지 (동일 단지 내 과도한 편차)
- 특수 거래 필터링 (가족간, 법인)
- 다중 소스 교차 검증

2. 비교 가능성 확보:

표준화 필요:
- 전용면적 기준 (공급면적 아님)
- 층수 보정 (저층/중층/고층)
- 향 보정 (남향 프리미엄)
- 시점 보정 (시세 지수 활용)

예시:
실거래가 8억 (2023.01)
→ 전용 84m² 기준: 952만원/m²
→ 층수 보정 (저층 -5%): 1,000만원/m² 환산
→ 시점 보정 (2024.01 기준): 1,050만원/m² 현재가

3. 장기 관점 필수:

부동산 사이클:

    가격
      |     /\          /\
      |    /  \        /  \
      |   /    \      /    \
      |  /      \    /      \
      | /        \  /        \
      |/          \/          \
      +----------------------------> 시간
           5-7년       5-7년

분석 시 고려:
- 최소 10년 이상 데이터로 사이클 파악
- 현재 사이클 위치 추정
- 단기 예측과 장기 전망 분리

비즈니스 액션

이해관계자별 분석 활용

이해관계자 필요한 분석 의사결정
매수자 적정가 추정, 상승 여력 매수 시점, 가격 협상
매도자 시장 추세, 비교 매물 호가 설정, 매도 시점
투자자 수익률 분석, 리스크 평가 포트폴리오 구성
개발사 수요 예측, 분양가 산정 사업 타당성, 분양 시점
정책 시장 모니터링, 효과 분석 규제 수준 조정

투자 분석 프레임워크

+------------------------------------------------------------------+
|                    투자 수익률 분석                               |
+------------------------------------------------------------------+
| 총 수익 = 임대 수익 + 자본 차익 - 비용                           |
|                                                                   |
| Cap Rate = 순운영소득(NOI) / 매입가격                            |
|          = (임대료 - 운영비용) / 매입가격                        |
|                                                                   |
| IRR = 투자 기간 동안의 내부수익률                                |
|       (초기 투자, 연간 현금흐름, 매각 수익 고려)                 |
+------------------------------------------------------------------+

비교 기준:
- Cap Rate > 국고채 금리 + 리스크 프리미엄
- IRR > 기대 수익률 (통상 8-12%)

실무 사례

사례 1: 재개발 투자 분석

상황: 서울 A구역 재개발 투자 검토

분석 프레임워크:

1. 현재 가치 분석
   - 감정평가액 vs 시세
   - 권리가액 추정
   - 프리미엄 수준

2. 예상 수익 분석
   - 일반분양가 추정 (인근 신축 시세 기준)
   - 조합원분양가 추정 (분양가 상한제 적용)
   - 추가분담금 계산

3. 리스크 분석
   - 사업 지연 가능성 (평균 10-15년)
   - 조합 분쟁 이력
   - 시장 변동 시나리오

분석 결과:

시나리오 분석:
                낙관         기본         비관
사업기간        8년          12년         15년
분양가상승      20%          10%          0%
추가분담금      1억          2억          3억
예상수익        4억          2억          -0.5억
IRR             15%          8%           -2%

결론: 기본 시나리오에서도 투자 매력 낮음 (IRR 8% < 목표 10%)

사례 2: 상권 분석 기반 상가 투자

상황: 신도시 상가 분양 검토

분석:

1. 배후 수요 분석
   - 반경 500m 세대수: 5,000세대
   - 반경 1km 세대수: 15,000세대
   - 유동인구: 일평균 3,000명 (공사중)

2. 경쟁 공급 분석
   - 기존 상가: 2개동 120호
   - 신규 공급: 5개동 300호 (24-25년)
   - 공급과잉 우려

3. 임대료 추정
   - 인근 유사 상권: 5만원/m² (1층 기준)
   - 신도시 초기 할인: -30%
   - 예상 임대료: 3.5만원/m²

4. 수익률 분석
   - 분양가: 3,500만원/m²
   - 예상 임대료: 3.5만원/m²
   - Gross Cap Rate: 1.2% (연)
   - 국고채 대비: -2.3%p

결론: 현 분양가 대비 임대 수익률 부족, 재협상 또는 포기 권고


핵심 지표 정리

영역 지표 계산/설명 활용
가격 평당가 가격/전용면적(평) 물건 비교
가격 PIR 주택가격/연소득 부담 수준
가격 전세가율 전세가/매매가 갭투자 지표
수요 청약경쟁률 청약자수/공급물량 수요 파악
수요 미분양 준공후 미분양 공급과잉
수익 Cap Rate NOI/가격 수익형 투자
수익 IRR 내부수익률 투자 판단

다음: 물류/배송