/AI Chasm Catalyst

홍콩대학교 연구팀이 공개한 오픈소스 프로젝트 ‘RAG-Anything’은 텍스트만 다루던 기존 RAG 한계를 뛰어넘어, 이미지와 표, 수식 등 다양한 문서 요소를 동시에 처리할 수 있는 차세대 다중모달 검색·생성 시스템이다. 학술·금융·의료 등 복합 데이터가 얽힌 분야에서 활용 가능성이 크다는 평가가 나온다.

◆ 최첨단 다중모달 RAG 시스템 ‘RAG‑Anything’ 등장

최근 홍콩대학교(University of Hong Kong) 황초(Chao Huang) 교수팀이 개발한 오픈소스 프로젝트 ‘RAG‑Anything’은 텍스트 중심 처리에 한계가 있던 기존 Retrieval‑Augmented Generation(RAG) 시스템을 벗어나, 이미지, 표, 수식 등 다양한 형태의 정보를 통합 처리할 수 있는 올인원 다중모달 RAG 시스템을 제안한다.

학술자료, 기술문서, 재무보고서 등에서 흔히 나타나는 텍스트, 도표, 수식 등 혼합 형태의 콘텐츠를 하나의 프레임워크로 통일해 처리할 수 있는 것이 핵심이다. 이러한 접근은 비정형 문서 처리에 특화된 기존 RAG 시스템의 취약점을 해결한다.

◆ 주요 기능 및 기술 구성

첫째, 문서 입력부터 파싱, 질의 응답에 이르는 전체 워크플로우를 지원하는 엔드투엔드 다중모달 파이프라인을 제공한다. PDF·워드·파워포인트·이미지·텍스트 파일 등 다양한 문서 형식을 지원하며, 콘텐츠 유형에 따라 텍스트, 이미지, 표, 수식 등을 분리하고 분석하는 전용 모듈을 갖추고 있다.

둘째, MinerU 기반 적응형 문서 구조 파싱 기술을 활용해 문서를 효과적으로 세분화하는 “Document Parsing” 단계, 텍스트와 비텍스트 콘텐츠를 병렬 처리하는 “Multi‑Modal Content Understanding” 단계, 그리고 시각 콘텐츠 설명, 테이블 분석, 수식 해석 등을 수행하는 “Multimodal Analysis Engine”으로 구성된 다단계 구조를 띤다.

셋째, 구축된 콘텐츠를 바탕으로 자동 개체 추출 및 교차 모달 관계를 형성하는 다중모달 지식 그래프를 생성한다. 이를 통해 그래프 기반 검색과 벡터 기반 검색을 결합한 하이브리드 지능적 검색을 구현하고, 복잡한 질의에도 정확한 응답을 생성할 수 있도록 한다.

◆ 최신 업데이트 및 개발 동향

2025년 8월 12일에는 이미지가 포함된 문서에 대해 시각언어모델(VLM)을 활용한 고급 질의 모드(VLM‑Enhanced Query)를 공식 도입했다. 이는 이미지 내용과 텍스트 맥락을 동시에 분석해 보다 심층적인 응답을 가능하게 한다.

그 외에도 7월에는 문서 처리 시 컨텍스트 설정 모듈 추가, 멀티모달 질의 기능 추가, 그리고 전체 프로젝트가 GitHub 스타 1,000개를 돌파하는 등 활발한 발전을 보였다 .

최근에는 FastAPI 연동을 위한 기능도 추가되어, 실시간 API 형태로 다중모달 질의를 수행할 수 있는 응용 가능성도 확장되고 있다 .

◆ 전문가 시각 및 학계 인터뷰

AI 및 정보 검색 전문가 A교수는 “현실 문서들은 텍스트 외에도 이미지, 표, 수식 등 다양한 형태로 정보를 전달하는데, RAG-Anything은 이를 통합적으로 처리할 수 있는 매우 의미 있는 발전이다. 특히 학술·금융 분야에서 대단히 유용하게 활용될 수 있다”고 평가했다.

한 정보과학 박사과정 연구자는 “다중모달 지식 그래프 구축과 질의 응답의 연계는 차세대 RAG 시스템의 방향성을 보여준다. 다만, 성능 최적화와 실무 시스템 통합이 관건”이라고 지적했다.

◆ 실제 적용 사례 및 비교 사례

예컨대, 학술 논문 PDF와 함께 내재된 그래프나 수식 정보를 함께 질의에 활용해야 하는 경우, 기존 RAG 시스템은 텍스트만 처리하거나 이미지·표를 강제 OCR로만 변환하는 수준이었다. 반면 RAG-Anything은 이미지의 시각 구조를 설명하거나, 표의 트렌드를 질의에 반영할 수 있다.

금융 보고서에서는 텍스트 설명뿐 아니라 차트 트렌드 해석, 수치 비교 결과를 질의 응답에 통합 제공하는 것이 가능하다. 의료 분야에서도 영상 데이터와 텍스트 병합 문서 처리에 응용될 여지가 있다.