Phi-2
개요
Phi-2는 Microsoft Research에서 개발한 27억 파라미터 규모의 소형 언어 모델이다. Phi-1.5의 데이터 소스를 기반으로 합성 NLP 텍스트와 필터링된 웹사이트 데이터를 추가하여 학습되었다. RLHF 없이 사전학습만으로 13B 미만 모델 중 최고 수준의 성능을 달성했다.
- 개발사: Microsoft Research
- 공개일: 2023년 12월
- 모델 유형: Transformer (Decoder-only)
사양
| 항목 |
내용 |
| 파라미터 수 |
2.7B |
| 아키텍처 |
Transformer (next-word prediction) |
| 컨텍스트 길이 |
2,048 토큰 |
| 학습 데이터 크기 |
250B 토큰 |
| 학습 토큰 수 |
1.4T 토큰 |
| 학습 기간 |
14일 |
| 학습 인프라 |
96 A100-80G GPU |
학습 데이터 구성
- AOAI GPT-3.5로 생성된 NLP 합성 데이터
- Falcon RefinedWeb (필터링)
- SlimPajama (필터링)
- 품질 평가: AOAI GPT-4
라이선스 및 가격
| 항목 |
내용 |
| 라이선스 |
MIT License |
| 상업적 사용 |
허용 |
| 오픈소스 |
Hugging Face에서 가중치 공개 |
주요 특징
1. 효율적인 규모
- 2.7B 파라미터로 소비자급 GPU에서 실행 가능
- 7B-13B 모델과 비교 가능한 성능
2. 다양한 입력 형식 지원
- QA 형식: 질문-답변 스타일
- Chat 형식: 대화 스타일
- Code 형식: 코드 완성
3. 합성 데이터 기반 학습
- "교과서 스타일" 합성 데이터
- 고품질 추론 데이터에 집중
4. RLHF 미적용
- 순수 사전학습 모델
- 연구 목적으로 공개 (안전성 연구용)
입력 형식 예시
QA 형식
Instruct: Write a detailed analogy between mathematics and a lighthouse.
Output:
Chat 형식
Alice: I don't know why, I'm struggling to maintain focus while studying.
Bob: Well, have you tried creating a study schedule?
Alice:
Code 형식
def print_prime(n):
"""
Print all primes between 1 and n
"""
장점
- MIT 라이선스로 상업적 사용 자유
- 작은 크기로 리소스 효율적
- 13B 미만 모델 중 최고 수준 성능
- 다양한 프롬프트 형식 지원
- 연구 및 실험에 적합한 베이스 모델
단점
- 지시 따르기(Instruction Following) 미세조정 안됨
- 부정확한 코드나 사실 생성 가능
- Python 외 언어 지원 제한
- 비표준 영어 이해 어려움
- 장황한 응답 경향 (교과서 스타일)
- 사회적 편향 포함 가능성
- 유해 콘텐츠 생성 가능성 (명시적 프롬프트 시)
제한 사항
| 제한 사항 |
설명 |
| 코드 정확성 |
생성된 코드는 시작점으로만 활용 권장 |
| 코드 범위 |
Python 및 일반 패키지 중심 |
| 지시 따르기 |
복잡한 지시사항 처리 어려움 |
| 언어 |
표준 영어 외 이해도 제한 |
| 편향성 |
사회적 편향 포함 가능 |
참고자료
- Hugging Face: https://huggingface.co/microsoft/phi-2
- 소프트웨어 스택: PyTorch, DeepSpeed, Flash-Attention
- 데이터 요약: https://huggingface.co/microsoft/phi-2/blob/main/data_summary_card.md