Cohere Embed
개요
Cohere Embed는 텍스트와 이미지를 임베딩(벡터)으로 변환하거나 분류하는 모델 시리즈다. 시맨틱 유사도 측정, 문장 연결 예측, 사용자 피드백 분류 등 다양한 NLP 작업에 활용된다. 최신 embed-v4.0은 텍스트, 이미지, PDF 등 혼합 모달리티를 지원한다.
- 개발사: Cohere
- 최신 버전: embed-v4.0
- 모델 유형: Embedding Model
사양
모델 패밀리
| 모델명 |
모달리티 |
차원 |
최대 토큰 |
| embed-v4.0 |
텍스트, 이미지, 혼합(PDF) |
256/512/1024/1536 |
128K |
| embed-english-v3.0 |
텍스트, 이미지 |
1024 |
512 |
| embed-english-light-v3.0 |
텍스트, 이미지 |
384 |
512 |
| embed-multilingual-v3.0 |
텍스트, 이미지 |
1024 |
512 |
| embed-multilingual-light-v3.0 |
텍스트, 이미지 |
384 |
512 |
embed-v4.0 상세
| 항목 |
내용 |
| 차원 |
256, 512, 1024, 1536 (기본값) |
| 컨텍스트 길이 |
128,000 토큰 |
| 지원 모달리티 |
텍스트, 이미지, 혼합 (PDF 등) |
| 유사도 측정 |
Cosine, Dot Product, Euclidean |
지원 엔드포인트
- Embed API
- Embed Jobs API (batch processing)
라이선스 및 가격
API 가격 (예상)
Cohere 콘솔에서 확인 필요. 일반적으로 사용량 기반 과금.
제공 방식
- Cohere API
- 배치 처리 (Embed Jobs)
주요 특징
1. 다양한 모달리티 지원 (v4.0)
- 순수 텍스트
- 이미지
- 텍스트와 이미지 혼합 (PDF 문서)
2. 가변 차원 출력
embed-v4.0은 사용 사례에 맞는 차원 선택 가능:
- 256: 저장 공간 최적화
- 512: 균형
- 1024: 고품질
- 1536 (기본값): 최대 품질
3. 다국어 지원
100개 이상 언어 지원 (multilingual 모델):
| 주요 언어 |
ISO 코드 |
| 한국어 |
ko |
| 영어 |
en |
| 중국어 |
zh |
| 일본어 |
ja |
| 스페인어 |
es |
| 프랑스어 |
fr |
| 독일어 |
de |
| 아랍어 |
ar |
| 힌디어 |
hi |
| 러시아어 |
ru |
4. 유사도 측정 방식
| 방식 |
설명 |
사용 사례 |
| Cosine Similarity |
방향 유사도 |
일반적인 시맨틱 검색 |
| Dot Product |
크기와 방향 모두 고려 |
랭킹, 추천 |
| Euclidean Distance |
거리 기반 |
클러스터링 |
활용 사례
1. 시맨틱 검색
- 의미 기반 문서 검색
- FAQ 매칭
- 유사 문서 찾기
2. 분류
3. 클러스터링
4. RAG (검색 증강 생성)
- 벡터 데이터베이스 인덱싱
- 관련 문서 검색
- Command R/R+와 연동
장점
- 128K 토큰 컨텍스트 (v4.0)
- 멀티모달 지원 (텍스트, 이미지, PDF)
- 100개 이상 언어 지원
- 가변 차원으로 유연한 사용
- 배치 처리 지원 (Embed Jobs)
- 다양한 유사도 메트릭 지원
단점
- 오픈소스 아님
- API 비용 발생
- 영어 전용 모델이 다국어보다 빠름
- 로컬 실행 불가
- 인터넷 연결 필수
모델 선택 가이드
| 요구사항 |
권장 모델 |
| 최대 품질 |
embed-v4.0 |
| 영어 전용, 빠른 속도 |
embed-english-light-v3.0 |
| 다국어 지원 |
embed-multilingual-v3.0 |
| 비용 효율 |
light 버전 |
| PDF/이미지 포함 |
embed-v4.0 |
참고자료
- 공식 문서: https://docs.cohere.com/docs/cohere-embed
- Embed API: https://docs.cohere.com/reference/embed
- Embed Jobs: https://docs.cohere.com/reference/embed-jobs
- 지원 언어 목록: https://docs.cohere.com/docs/supported-languages