/AI Chasm Catalyst
구글 AI 리서치팀이 최근 발표한 새로운 AI 프레임워크 ‘TTD‑DR(Test-Time Diffusion Deep Researcher)’가 초거대 사전학습 없이도 OpenAI를 포함한 기존 최고 성능 시스템을 능가한 것으로 나타났다.
실시간 검색과 에이전트 협업에 기반한 이 접근은 기존 모델 중심 AI 개발 패러다임의 근본적 전환을 시사한다.
검색 기반 협업 프레임워크로 보고서 품질 향상
TTD‑DR은 기존의 사전학습 대형 언어모델과 달리, 초안을 작성한 뒤 실시간 검색을 통해 외부 정보를 반영하고, 반복적인 디노이징(denoising) 과정으로 문서 품질을 정교화하는 방식이다.
이 과정은 인간 연구자의 리서치·편집 과정을 모사하며, 플래너, 검색 쿼리 생성기, 답변 합성기, 최종 작성기 등 다중 에이전트가 협업하는 구조로 설계됐다.
해당 프레임워크는 대형 LLM을 새롭게 사전학습하지 않고도 최신 정보를 지속 반영하며 결과물을 고도화할 수 있어, 대규모 파운데이션 모델이 필수라는 기존 인식을 뒤흔든다.
OpenAI·Perplexity·xAI 넘어선 성능 기록
TTD‑DR은 5개의 주요 벤치마크에서 OpenAI Deep Research, Perplexity AI, xAI Grok 등의 SOTA 시스템을 모두 상회하는 결과를 기록했다.
구체적인 수치는 다음과 같다.
LongForm Research: OpenAI 대비 69.1% 승률
DeepConsult: 약 74.5% 승률
멀티홉 질의응답(HLE‑Full): OpenAI(26.6%) 대비 TTD‑DR(34.3%)로 7.7%p 정확도 향상
이 같은 성과는 특히 장문 리서치와 멀티홉 추론(Multi-hop reasoning) 영역에서 두드러지며, 단순한 질문응답이 아닌 복잡한 논리 구성 능력에서도 강점을 보였다.
구조적 혁신으로 비용과 효율 모두 확보
구글은 이번 연구를 통해, “AI의 미래는 모델의 크기가 아닌 구조의 설계와 협업의 방식에 달려 있다”고 강조한다. TTD‑DR은 전체 성능의 80% 이상을 모델 크기 없이 구현하고, 나머지 차이를 검색과 협업으로 메운다.
이를 통해 수십조 원이 투입되는 파운데이션 모델의 한계를 극복하고, 비용 효율성과 접근성을 모두 확보한 셈이다.
특히, 해당 프레임워크는 자원 제한적인 국가나 연구 환경에서도 글로벌 수준의 리서치 AI를 구축할 수 있는 가능성을 열어줬다는 점에서 주목된다.
전문가들 “AI 연구의 방향성 바뀌었다”
AI 연구자들과 기술 전문가들은 TTD‑DR이 보여준 성과에 대해, 단순한 기술 우위가 아니라 AI 시스템 설계 철학 자체의 전환점이라고 평가하고 있다.
이들은 기존처럼 블랙박스 모델을 키우는 것이 아니라, 의사결정 가능하고 적응력 있는 협업 구조를 설계하는 방향으로 AI가 진화하고 있다고 분석한다.
일부 한계도 존재… LLM 백본 스펙은 미공개
한편, 논문은 ‘사전학습 없는 SOTA 달성’을 주장하고 있으나, 사용된 LLM의 구체적 사양(Gemini 기반 여부 등)은 공개되지 않았다.
이에 따라 TTD‑DR이 전적으로 사전학습 없는 시스템인지, 혹은 미리 학습된 백본을 활용했는지에 대한 명확한 해석은 추가 검토가 필요하다는 지적도 나온다.
결론: 크기 중심에서 구조 중심으로
TTD‑DR은 초대형 모델 없이도 최고 성능에 도달할 수 있음을 입증하며, AI 개발 경쟁에서 ‘더 큰 모델’보다 ‘더 나은 구조’가 중요하다는 새로운 기준을 제시했다.
이 접근은 앞으로의 AI 시스템이 협업 중심, 실시간 적응형 구조를 바탕으로 설계되어야 한다는 방향성을 더욱 강화시키고 있다.
출처:
arXiv 논문: https://arxiv.org/abs/2507.16075
전문가 요약: Omar Khattab (LinkedIn)
논문 HTML 요약: https://arxiv.org/html/2507.16075v1.