콘텐츠로 이동

Cohere Embed

개요

Cohere Embed는 텍스트와 이미지를 임베딩(벡터)으로 변환하거나 분류하는 모델 시리즈다. 시맨틱 유사도 측정, 문장 연결 예측, 사용자 피드백 분류 등 다양한 NLP 작업에 활용된다. 최신 embed-v4.0은 텍스트, 이미지, PDF 등 혼합 모달리티를 지원한다.

  • 개발사: Cohere
  • 최신 버전: embed-v4.0
  • 모델 유형: Embedding Model

사양

모델 패밀리

모델명 모달리티 차원 최대 토큰
embed-v4.0 텍스트, 이미지, 혼합(PDF) 256/512/1024/1536 128K
embed-english-v3.0 텍스트, 이미지 1024 512
embed-english-light-v3.0 텍스트, 이미지 384 512
embed-multilingual-v3.0 텍스트, 이미지 1024 512
embed-multilingual-light-v3.0 텍스트, 이미지 384 512

embed-v4.0 상세

항목 내용
차원 256, 512, 1024, 1536 (기본값)
컨텍스트 길이 128,000 토큰
지원 모달리티 텍스트, 이미지, 혼합 (PDF 등)
유사도 측정 Cosine, Dot Product, Euclidean

지원 엔드포인트

  • Embed API
  • Embed Jobs API (batch processing)

라이선스 및 가격

API 가격 (예상)

Cohere 콘솔에서 확인 필요. 일반적으로 사용량 기반 과금.

제공 방식

  • Cohere API
  • 배치 처리 (Embed Jobs)

주요 특징

1. 다양한 모달리티 지원 (v4.0)

  • 순수 텍스트
  • 이미지
  • 텍스트와 이미지 혼합 (PDF 문서)

2. 가변 차원 출력

embed-v4.0은 사용 사례에 맞는 차원 선택 가능: - 256: 저장 공간 최적화 - 512: 균형 - 1024: 고품질 - 1536 (기본값): 최대 품질

3. 다국어 지원

100개 이상 언어 지원 (multilingual 모델):

주요 언어 ISO 코드
한국어 ko
영어 en
중국어 zh
일본어 ja
스페인어 es
프랑스어 fr
독일어 de
아랍어 ar
힌디어 hi
러시아어 ru

4. 유사도 측정 방식

방식 설명 사용 사례
Cosine Similarity 방향 유사도 일반적인 시맨틱 검색
Dot Product 크기와 방향 모두 고려 랭킹, 추천
Euclidean Distance 거리 기반 클러스터링

활용 사례

1. 시맨틱 검색

  • 의미 기반 문서 검색
  • FAQ 매칭
  • 유사 문서 찾기

2. 분류

  • 감정 분석
  • 토픽 분류
  • 스팸 필터링

3. 클러스터링

  • 문서 그룹화
  • 고객 세분화
  • 이상 탐지

4. RAG (검색 증강 생성)

  • 벡터 데이터베이스 인덱싱
  • 관련 문서 검색
  • Command R/R+와 연동

장점

  1. 128K 토큰 컨텍스트 (v4.0)
  2. 멀티모달 지원 (텍스트, 이미지, PDF)
  3. 100개 이상 언어 지원
  4. 가변 차원으로 유연한 사용
  5. 배치 처리 지원 (Embed Jobs)
  6. 다양한 유사도 메트릭 지원

단점

  1. 오픈소스 아님
  2. API 비용 발생
  3. 영어 전용 모델이 다국어보다 빠름
  4. 로컬 실행 불가
  5. 인터넷 연결 필수

모델 선택 가이드

요구사항 권장 모델
최대 품질 embed-v4.0
영어 전용, 빠른 속도 embed-english-light-v3.0
다국어 지원 embed-multilingual-v3.0
비용 효율 light 버전
PDF/이미지 포함 embed-v4.0

참고자료

  • 공식 문서: https://docs.cohere.com/docs/cohere-embed
  • Embed API: https://docs.cohere.com/reference/embed
  • Embed Jobs: https://docs.cohere.com/reference/embed-jobs
  • 지원 언어 목록: https://docs.cohere.com/docs/supported-languages