전이학습 (Transfer Learning)
1. 개요
전이학습은 한 도메인/태스크에서 학습한 지식을 다른 관련 도메인/태스크로 전이하여 학습 효율성과 성능을 향상시키는 기법. 데이터가 부족한 상황에서 특히 강력하며, 현대 딥러닝의 핵심 패러다임.
정의
전이학습: 소스 도메인의 지식을 타겟 도메인에 활용
소스 도메인 Dₛ = {Xₛ, P(Xₛ)}, 태스크 Tₛ = {Yₛ, P(Yₛ|Xₛ)}
타겟 도메인 Dₜ = {Xₜ, P(Xₜ)}, 태스크 Tₜ = {Yₜ, P(Yₜ|Xₜ)}
목표: Dₛ, Tₛ의 지식으로 Tₜ 성능 향상
조건: Dₛ ≠ Dₜ 또는 Tₛ ≠ Tₜ
전이의 유형
| 유형 |
도메인 |
태스크 |
예시 |
| 귀납적 전이 |
동일 |
다름 |
다른 레이블 세트 |
| 도메인 적응 |
다름 |
동일 |
사진→스케치 |
| 트랜스덕티브 |
다름 |
동일 |
영어→독일어 |
2. 핵심 개념
2.1 무엇을 전이할 것인가
| 전이 대상 |
설명 |
예시 |
| 특징 (Feature) |
학습된 표현 |
CNN 특징 |
| 파라미터 |
사전학습 가중치 |
BERT 가중치 |
| 인스턴스 |
소스 데이터 재활용 |
데이터 증강 |
| 관계적 지식 |
구조/규칙 |
지식 그래프 |
2.2 네거티브 전이 (Negative Transfer)
소스 지식이 타겟 성능을 저해하는 경우
원인:
- 소스-타겟 유사성 부족
- 과도한 전이
- 도메인 갭
방지:
- 소스-타겟 유사도 측정
- 선택적 전이
- 도메인 적응 기법
2.3 도메인 시프트
소스와 타겟의 분포 차이:
P(Xₛ) ≠ P(Xₜ) (공변량 시프트)
P(Yₛ|Xₛ) ≠ P(Yₜ|Xₜ) (조건부 시프트)
3. 주요 기법
3.1 피처 기반 전이
사전학습 모델 활용
컴퓨터 비전:
ImageNet 사전학습:
1. ImageNet으로 백본 학습
2. 타겟 태스크에 fine-tuning
전이 레이어:
- 얕은 층: 일반적 특징 (엣지, 텍스처)
- 깊은 층: 태스크 특화 특징
NLP:
BERT/GPT 사전학습:
1. 대규모 코퍼스로 언어 모델링
2. 다운스트림 태스크 fine-tuning
예: BERT → 감성 분석, NER, QA
3.2 Fine-tuning 전략
| 전략 |
방법 |
적용 상황 |
| Feature Extraction |
백본 동결, 분류기만 학습 |
소량 데이터 |
| Full Fine-tuning |
전체 모델 학습 |
충분한 데이터 |
| Gradual Unfreezing |
점진적 해동 |
중간 |
| Discriminative LR |
층별 다른 학습률 |
미세 조정 |
학습률 전략:
얕은 층: 작은 학습률 (일반적 특징 보존)
깊은 층: 큰 학습률 (태스크 적응)
예: lr_layer = lr_base × decay^(depth)
3.3 도메인 적응 (Domain Adaptation)
적대적 도메인 적응
DANN (Domain Adversarial Neural Network):
특징 추출기 Gf
레이블 분류기 Gy
도메인 분류기 Gd
목표: Gf가 도메인 불변 특징 학습
손실 = 분류 손실 - λ × 도메인 분류 손실
Gradient Reversal Layer로 적대적 학습
분포 정렬
| 방법 |
목표 |
| MMD |
평균 임베딩 정렬 |
| CORAL |
공분산 정렬 |
| JAN |
결합 분포 정렬 |
3.4 멀티태스크 학습
여러 태스크 동시 학습:
L = Σᵢ λᵢ Lᵢ
공유 표현 + 태스크별 헤드
장점:
- 정규화 효과
- 데이터 효율성
- 일반화 향상
3.5 Parameter-Efficient Fine-tuning (PEFT)
| 방법 |
설명 |
| Adapter |
작은 레이어 삽입 |
| LoRA |
저랭크 분해 |
| Prefix Tuning |
프리픽스 벡터 학습 |
| Prompt Tuning |
연속 프롬프트 |
LoRA (Low-Rank Adaptation):
W' = W + BA
W: 사전학습 가중치 (동결)
B: d×r, A: r×d (r << d)
장점: 파라미터 효율적, 빠른 학습
4. 실무 적용 사례
4.1 의료 영상 분석
문제: 레이블된 의료 데이터 부족
해결:
1. ImageNet 사전학습 (자연 이미지)
2. 의료 이미지로 fine-tuning
예: X-ray, CT, 병리 슬라이드 분류
성능: Scratch 대비 10-20% 향상
4.2 다국어 NLP
영어 모델 → 저자원 언어 전이
방법:
1. mBERT/XLM-R: 다국어 사전학습
2. 영어 태스크 학습
3. Zero-shot 또는 few-shot으로 타 언어 적용
4.3 산업 품질 검사
문제: 공장별로 제품/결함 다름
해결:
1. 일반 결함 탐지 모델 학습
2. 각 공장 데이터로 적응
3. Few-shot learning
4.4 자율주행
시뮬레이터 → 실제 도로 전이
도메인 갭:
- 그래픽 vs 실제 영상
- 날씨/조명 변화
해결:
- Domain Randomization
- 도메인 적응 기법
5. 참고 논문/저널
핵심 논문
| 논문 |
저자 |
출처 |
기여 |
| "A Survey on Transfer Learning" |
Pan & Yang |
TKDE 2010 |
전이학습 서베이 |
| "How transferable are features in deep neural networks?" |
Yosinski et al. |
NeurIPS 2014 |
층별 전이성 |
| "Domain Adversarial Training of Neural Networks" |
Ganin et al. |
JMLR 2016 |
DANN |
| "Deep CORAL: Correlation Alignment for Deep DA" |
Sun & Saenko |
ECCV 2016 |
CORAL |
| "Universal Language Model Fine-tuning for Text Classification" |
Howard & Ruder |
ACL 2018 |
ULMFiT |
| "BERT: Pre-training of Deep Bidirectional Transformers" |
Devlin et al. |
NAACL 2019 |
BERT |
| "LoRA: Low-Rank Adaptation of Large Language Models" |
Hu et al. |
ICLR 2022 |
LoRA |
주요 컨퍼런스
| 컨퍼런스 |
분야 |
| NeurIPS, ICML, ICLR |
전이학습 이론/알고리즘 |
| CVPR, ICCV |
비전 전이학습 |
| ACL, EMNLP |
NLP 전이학습 |
6. 실용적 가이드
전이학습 결정 트리
타겟 데이터 크기?
├── 소량
│ └── 소스와 유사?
│ ├── 예 → Feature Extraction
│ └── 아니오 → 다른 소스 탐색 / Few-shot
├── 중간
│ └── Gradual Unfreezing / Discriminative LR
└── 대량
└── Full Fine-tuning
체크리스트
| 항목 |
확인 |
| 소스-타겟 유사성 |
도메인, 태스크 |
| 사전학습 모델 선택 |
도메인 적합성 |
| Fine-tuning 전략 |
데이터 크기 기반 |
| 학습률 설정 |
층별 차등 |
| 정규화 |
과적합 방지 |
| 평가 |
네거티브 전이 모니터링 |
구현 도구
| 도구 |
용도 |
| HuggingFace Transformers |
NLP 전이학습 |
| timm |
Vision 사전학습 모델 |
| PEFT |
효율적 fine-tuning |
| MMDetection |
객체 탐지 전이 |
| PyTorch Lightning |
학습 파이프라인 |