전이학습 (Transfer Learning)¶

1. 개요¶

전이학습은 한 도메인/태스크에서 학습한 지식을 다른 관련 도메인/태스크로 전이하여 학습 효율성과 성능을 향상시키는 기법. 데이터가 부족한 상황에서 특히 강력하며, 현대 딥러닝의 핵심 패러다임.

정의¶

전이학습: 소스 도메인의 지식을 타겟 도메인에 활용

소스 도메인 Dₛ = {Xₛ, P(Xₛ)}, 태스크 Tₛ = {Yₛ, P(Yₛ|Xₛ)}
타겟 도메인 Dₜ = {Xₜ, P(Xₜ)}, 태스크 Tₜ = {Yₜ, P(Yₜ|Xₜ)}

목표: Dₛ, Tₛ의 지식으로 Tₜ 성능 향상
조건: Dₛ ≠ Dₜ 또는 Tₛ ≠ Tₜ

전이의 유형¶

유형	도메인	태스크	예시
귀납적 전이	동일	다름	다른 레이블 세트
도메인 적응	다름	동일	사진→스케치
트랜스덕티브	다름	동일	영어→독일어

2. 핵심 개념¶

2.1 무엇을 전이할 것인가¶

전이 대상	설명	예시
특징 (Feature)	학습된 표현	CNN 특징
파라미터	사전학습 가중치	BERT 가중치
인스턴스	소스 데이터 재활용	데이터 증강
관계적 지식	구조/규칙	지식 그래프

2.2 네거티브 전이 (Negative Transfer)¶

소스 지식이 타겟 성능을 저해하는 경우

원인:
- 소스-타겟 유사성 부족
- 과도한 전이
- 도메인 갭

방지:
- 소스-타겟 유사도 측정
- 선택적 전이
- 도메인 적응 기법

2.3 도메인 시프트¶

소스와 타겟의 분포 차이:
P(Xₛ) ≠ P(Xₜ)  (공변량 시프트)
P(Yₛ|Xₛ) ≠ P(Yₜ|Xₜ)  (조건부 시프트)

3. 주요 기법¶

3.1 피처 기반 전이¶

사전학습 모델 활용¶

컴퓨터 비전:

ImageNet 사전학습:
1. ImageNet으로 백본 학습
2. 타겟 태스크에 fine-tuning

전이 레이어:
- 얕은 층: 일반적 특징 (엣지, 텍스처)
- 깊은 층: 태스크 특화 특징

NLP:

BERT/GPT 사전학습:
1. 대규모 코퍼스로 언어 모델링
2. 다운스트림 태스크 fine-tuning

예: BERT → 감성 분석, NER, QA

3.2 Fine-tuning 전략¶

전략	방법	적용 상황
Feature Extraction	백본 동결, 분류기만 학습	소량 데이터
Full Fine-tuning	전체 모델 학습	충분한 데이터
Gradual Unfreezing	점진적 해동	중간
Discriminative LR	층별 다른 학습률	미세 조정

학습률 전략:

얕은 층: 작은 학습률 (일반적 특징 보존)
깊은 층: 큰 학습률 (태스크 적응)

예: lr_layer = lr_base × decay^(depth)

3.3 도메인 적응 (Domain Adaptation)¶

적대적 도메인 적응¶

DANN (Domain Adversarial Neural Network):

특징 추출기 Gf
레이블 분류기 Gy
도메인 분류기 Gd

목표: Gf가 도메인 불변 특징 학습

손실 = 분류 손실 - λ × 도메인 분류 손실

Gradient Reversal Layer로 적대적 학습

분포 정렬¶

방법	목표
MMD	평균 임베딩 정렬
CORAL	공분산 정렬
JAN	결합 분포 정렬

3.4 멀티태스크 학습¶

여러 태스크 동시 학습:
L = Σᵢ λᵢ Lᵢ

공유 표현 + 태스크별 헤드

장점:
- 정규화 효과
- 데이터 효율성
- 일반화 향상

3.5 Parameter-Efficient Fine-tuning (PEFT)¶

방법	설명
Adapter	작은 레이어 삽입
LoRA	저랭크 분해
Prefix Tuning	프리픽스 벡터 학습
Prompt Tuning	연속 프롬프트

LoRA (Low-Rank Adaptation):

W' = W + BA

W: 사전학습 가중치 (동결)
B: d×r, A: r×d (r << d)

장점: 파라미터 효율적, 빠른 학습

4. 실무 적용 사례¶

4.1 의료 영상 분석¶

문제: 레이블된 의료 데이터 부족

해결:
1. ImageNet 사전학습 (자연 이미지)
2. 의료 이미지로 fine-tuning

예: X-ray, CT, 병리 슬라이드 분류
성능: Scratch 대비 10-20% 향상

4.2 다국어 NLP¶

영어 모델 → 저자원 언어 전이

방법:
1. mBERT/XLM-R: 다국어 사전학습
2. 영어 태스크 학습
3. Zero-shot 또는 few-shot으로 타 언어 적용

4.3 산업 품질 검사¶

문제: 공장별로 제품/결함 다름

해결:
1. 일반 결함 탐지 모델 학습
2. 각 공장 데이터로 적응
3. Few-shot learning

4.4 자율주행¶

시뮬레이터 → 실제 도로 전이

도메인 갭:
- 그래픽 vs 실제 영상
- 날씨/조명 변화

해결:
- Domain Randomization
- 도메인 적응 기법

5. 참고 논문/저널¶

핵심 논문¶

논문	저자	출처	기여
"A Survey on Transfer Learning"	Pan & Yang	TKDE 2010	전이학습 서베이
"How transferable are features in deep neural networks?"	Yosinski et al.	NeurIPS 2014	층별 전이성
"Domain Adversarial Training of Neural Networks"	Ganin et al.	JMLR 2016	DANN
"Deep CORAL: Correlation Alignment for Deep DA"	Sun & Saenko	ECCV 2016	CORAL
"Universal Language Model Fine-tuning for Text Classification"	Howard & Ruder	ACL 2018	ULMFiT
"BERT: Pre-training of Deep Bidirectional Transformers"	Devlin et al.	NAACL 2019	BERT
"LoRA: Low-Rank Adaptation of Large Language Models"	Hu et al.	ICLR 2022	LoRA

주요 컨퍼런스¶

컨퍼런스	분야
NeurIPS, ICML, ICLR	전이학습 이론/알고리즘
CVPR, ICCV	비전 전이학습
ACL, EMNLP	NLP 전이학습

6. 실용적 가이드¶

전이학습 결정 트리¶

타겟 데이터 크기?
├── 소량
│   └── 소스와 유사?
│       ├── 예 → Feature Extraction
│       └── 아니오 → 다른 소스 탐색 / Few-shot
├── 중간
│   └── Gradual Unfreezing / Discriminative LR
└── 대량
    └── Full Fine-tuning

체크리스트¶

항목	확인
소스-타겟 유사성	도메인, 태스크
사전학습 모델 선택	도메인 적합성
Fine-tuning 전략	데이터 크기 기반
학습률 설정	층별 차등
정규화	과적합 방지
평가	네거티브 전이 모니터링

구현 도구¶

도구	용도
HuggingFace Transformers	NLP 전이학습
timm	Vision 사전학습 모델
PEFT	효율적 fine-tuning
MMDetection	객체 탐지 전이
PyTorch Lightning	학습 파이프라인