콘텐츠로 이동
Data Prep
상세

전이학습 (Transfer Learning)

1. 개요

전이학습은 한 도메인/태스크에서 학습한 지식을 다른 관련 도메인/태스크로 전이하여 학습 효율성과 성능을 향상시키는 기법. 데이터가 부족한 상황에서 특히 강력하며, 현대 딥러닝의 핵심 패러다임.

정의

전이학습: 소스 도메인의 지식을 타겟 도메인에 활용

소스 도메인 Dₛ = {Xₛ, P(Xₛ)}, 태스크 Tₛ = {Yₛ, P(Yₛ|Xₛ)}
타겟 도메인 Dₜ = {Xₜ, P(Xₜ)}, 태스크 Tₜ = {Yₜ, P(Yₜ|Xₜ)}

목표: Dₛ, Tₛ의 지식으로 Tₜ 성능 향상
조건: Dₛ ≠ Dₜ 또는 Tₛ ≠ Tₜ

전이의 유형

유형 도메인 태스크 예시
귀납적 전이 동일 다름 다른 레이블 세트
도메인 적응 다름 동일 사진→스케치
트랜스덕티브 다름 동일 영어→독일어

2. 핵심 개념

2.1 무엇을 전이할 것인가

전이 대상 설명 예시
특징 (Feature) 학습된 표현 CNN 특징
파라미터 사전학습 가중치 BERT 가중치
인스턴스 소스 데이터 재활용 데이터 증강
관계적 지식 구조/규칙 지식 그래프

2.2 네거티브 전이 (Negative Transfer)

소스 지식이 타겟 성능을 저해하는 경우

원인:
- 소스-타겟 유사성 부족
- 과도한 전이
- 도메인 갭

방지:
- 소스-타겟 유사도 측정
- 선택적 전이
- 도메인 적응 기법

2.3 도메인 시프트

소스와 타겟의 분포 차이:
P(Xₛ) ≠ P(Xₜ)  (공변량 시프트)
P(Yₛ|Xₛ) ≠ P(Yₜ|Xₜ)  (조건부 시프트)

3. 주요 기법

3.1 피처 기반 전이

사전학습 모델 활용

컴퓨터 비전:

ImageNet 사전학습:
1. ImageNet으로 백본 학습
2. 타겟 태스크에 fine-tuning

전이 레이어:
- 얕은 층: 일반적 특징 (엣지, 텍스처)
- 깊은 층: 태스크 특화 특징

NLP:

BERT/GPT 사전학습:
1. 대규모 코퍼스로 언어 모델링
2. 다운스트림 태스크 fine-tuning

예: BERT → 감성 분석, NER, QA

3.2 Fine-tuning 전략

전략 방법 적용 상황
Feature Extraction 백본 동결, 분류기만 학습 소량 데이터
Full Fine-tuning 전체 모델 학습 충분한 데이터
Gradual Unfreezing 점진적 해동 중간
Discriminative LR 층별 다른 학습률 미세 조정

학습률 전략:

얕은 층: 작은 학습률 (일반적 특징 보존)
깊은 층: 큰 학습률 (태스크 적응)

예: lr_layer = lr_base × decay^(depth)

3.3 도메인 적응 (Domain Adaptation)

적대적 도메인 적응

DANN (Domain Adversarial Neural Network):

특징 추출기 Gf
레이블 분류기 Gy
도메인 분류기 Gd

목표: Gf가 도메인 불변 특징 학습

손실 = 분류 손실 - λ × 도메인 분류 손실

Gradient Reversal Layer로 적대적 학습

분포 정렬

방법 목표
MMD 평균 임베딩 정렬
CORAL 공분산 정렬
JAN 결합 분포 정렬

3.4 멀티태스크 학습

여러 태스크 동시 학습:
L = Σᵢ λᵢ Lᵢ

공유 표현 + 태스크별 헤드

장점:
- 정규화 효과
- 데이터 효율성
- 일반화 향상

3.5 Parameter-Efficient Fine-tuning (PEFT)

방법 설명
Adapter 작은 레이어 삽입
LoRA 저랭크 분해
Prefix Tuning 프리픽스 벡터 학습
Prompt Tuning 연속 프롬프트

LoRA (Low-Rank Adaptation):

W' = W + BA

W: 사전학습 가중치 (동결)
B: d×r, A: r×d (r << d)

장점: 파라미터 효율적, 빠른 학습


4. 실무 적용 사례

4.1 의료 영상 분석

문제: 레이블된 의료 데이터 부족

해결:
1. ImageNet 사전학습 (자연 이미지)
2. 의료 이미지로 fine-tuning

예: X-ray, CT, 병리 슬라이드 분류
성능: Scratch 대비 10-20% 향상

4.2 다국어 NLP

영어 모델 → 저자원 언어 전이

방법:
1. mBERT/XLM-R: 다국어 사전학습
2. 영어 태스크 학습
3. Zero-shot 또는 few-shot으로 타 언어 적용

4.3 산업 품질 검사

문제: 공장별로 제품/결함 다름

해결:
1. 일반 결함 탐지 모델 학습
2. 각 공장 데이터로 적응
3. Few-shot learning

4.4 자율주행

시뮬레이터 → 실제 도로 전이

도메인 갭:
- 그래픽 vs 실제 영상
- 날씨/조명 변화

해결:
- Domain Randomization
- 도메인 적응 기법

5. 참고 논문/저널

핵심 논문

논문 저자 출처 기여
"A Survey on Transfer Learning" Pan & Yang TKDE 2010 전이학습 서베이
"How transferable are features in deep neural networks?" Yosinski et al. NeurIPS 2014 층별 전이성
"Domain Adversarial Training of Neural Networks" Ganin et al. JMLR 2016 DANN
"Deep CORAL: Correlation Alignment for Deep DA" Sun & Saenko ECCV 2016 CORAL
"Universal Language Model Fine-tuning for Text Classification" Howard & Ruder ACL 2018 ULMFiT
"BERT: Pre-training of Deep Bidirectional Transformers" Devlin et al. NAACL 2019 BERT
"LoRA: Low-Rank Adaptation of Large Language Models" Hu et al. ICLR 2022 LoRA

주요 컨퍼런스

컨퍼런스 분야
NeurIPS, ICML, ICLR 전이학습 이론/알고리즘
CVPR, ICCV 비전 전이학습
ACL, EMNLP NLP 전이학습

6. 실용적 가이드

전이학습 결정 트리

타겟 데이터 크기?
├── 소량
│   └── 소스와 유사?
│       ├── 예 → Feature Extraction
│       └── 아니오 → 다른 소스 탐색 / Few-shot
├── 중간
│   └── Gradual Unfreezing / Discriminative LR
└── 대량
    └── Full Fine-tuning

체크리스트

항목 확인
소스-타겟 유사성 도메인, 태스크
사전학습 모델 선택 도메인 적합성
Fine-tuning 전략 데이터 크기 기반
학습률 설정 층별 차등
정규화 과적합 방지
평가 네거티브 전이 모니터링

구현 도구

도구 용도
HuggingFace Transformers NLP 전이학습
timm Vision 사전학습 모델
PEFT 효율적 fine-tuning
MMDetection 객체 탐지 전이
PyTorch Lightning 학습 파이프라인