/AI Chasm Catalyst
AI 플랫폼 기업 코히어가 15일 기업용 멀티모달 임베딩 모델 'Embed 4'를 공개했다고 발표했다. 이번 신제품은 기업들이 텍스트, 이미지, 표, 그래프가 혼재된 복잡한 비즈니스 문서를 효율적으로 검색하고 AI 에이전트를 구축할 수 있도록 지원한다.
약 200페이지 문서 처리 가능한 초장문 컨텍스트
Embed 4의 가장 큰 특징은 최대 12만 8천 토큰(약 200페이지) 길이의 문서를 처리할 수 있다는 점이다. 이는 연간 재무보고서, 제품 매뉴얼, 상세한 법적 계약서 등 대용량 기업 문서를 한 번에 임베딩할 수 있음을 의미한다.
기존 임베딩 모델들이 복잡한 멀티모달 비즈니스 자료를 이해하지 못해 기업들이 번거로운 데이터 전처리 파이프라인을 구축해야 했던 문제를 해결했다고 코히어 측은 설명했다.
100개 이상 언어 지원으로 글로벌 기업 겨냥
Embed 4는 아랍어, 일본어, 한국어, 프랑스어 등 주요 비즈니스 언어를 포함해 100개 이상의 언어를 지원한다. 언어 간 검색도 가능해 직원들이 어떤 언어로 저장된 데이터든 모국어로 검색할 수 있다.
특히 잘못된 철자, 포맷 오류, 페이지 방향 문제 등 실제 비즈니스 환경에서 흔히 발생하는 노이즈가 있는 데이터에 대해서도 강건한 성능을 보인다. 스캔된 문서나 손글씨 인식도 지원해 법률 서류, 보험 청구서, 영수증 등의 검색이 가능하다.
금융·의료·제조업 특화 최적화
Embed 4는 규제 산업인 금융, 의료, 제조업에 특화된 도메인 지식으로 최적화됐다. 금융 분야에서는 투자 프레젠테이션, 연간 재무보고서, 인수합병 실사 파일을, 의료 분야에서는 의료 기록, 절차 차트, 임상시험 보고서를, 제조업에서는 제품 사양서, 수리 가이드, 공급망 계획서 등에서 관련 인사이트를 식별할 수 있다.
고객사 성과 개선 사례 공개
인재 매칭 플랫폼 헌트클럽의 제임스 커크 AI 부사장은 "Embed 4를 통해 복잡한 후보자 프로필 검색 정확도가 기존 Embed 3 대비 47% 향상됐다"고 밝혔다.
전자상거래 AI 검색엔진 아고라의 창립자 파람 재기는 "3만 5천 개 온라인 스토어의 복잡한 제품 데이터를 통합 임베딩으로 표현해 검색 속도와 내부 툴링 효율성이 크게 개선됐다"고 평가했다.
기업 AI 에이전트 구축의 핵심 기반
Embed 4는 기업 AI 어시스턴트와 에이전트 구축에 필수적인 검색증강생성(RAG) 시스템의 핵심 엔진 역할을 한다. 생성형 AI 모델이 사용자 질문에 답변하기 전에 기업 내부 정보에서 관련 정보를 검색해 답변의 유용성을 높이고 할루시네이션을 완화한다.
특히 높은 데이터 저장 비용으로 인한 기술 투자 수익률 감소 문제를 해결하기 위해 압축된 임베딩을 출력하도록 설계됐다. 이를 통해 검색 정확도는 유지하면서도 저장 비용을 최대 83%까지 절약할 수 있다고 회사 측은 설명했다.
마이크로소프트·아마존과 파트너십 확대
Embed 4는 코히어 플랫폼과 마이크로소프트 애저 AI 파운드리에서 현재 이용 가능하다.
마이크로소프트 AI 플랫폼 제품 담당 CVP 아샤 샤르마는 "Embed 4와 Command A 모델을 애저 AI 파운드리에 도입해 강력하고 효율적이며 안전한 AI 솔루션을 제공하게 됐다"며 "특히 풍부한 맥락 데이터에 기반한 에이전트 기능 향상을 기대한다"고 밝혔다.
아마존 세이지메이커에서도 이용할 수 있으며, VPC나 온프레미스 환경으로의 프라이빗 배포도 지원한다. 자세한 기술 정보는 개발자 문서에서 확인할 수 있으며, 기업 도입 문의는 영업팀을 통해 가능하다.