/AI Chasm Catalyst

최근 AI 기술의 급속한 발전과 함께 과학 연구 분야에서도 인공지능의 역할이 주목받고 있다.
특히 대규모 언어모델 기반 AI 시스템이 연구 아이디어 생성부터 논문 작성까지 전 과정을 자동화할 수 있다는 가능성이 제기되면서, 과학계에서는 AI 과학자 시스템의 현재 수준과 미래 전망에 대한 관심이 높아지고 있다.

■ 역사적 첫 성과, 그러나 워크숍 수준에 머물러

사카나AI가 개발한 AI 과학자-v2 시스템이 올해 4월 ICLR 2025 워크숍에서 AI가 완전히 자동 생성한 논문으로는 최초로 동료 심사를 통과하는 역사적 성과를 거뒀다.
해당 시스템은 연구 가설 생성부터 실험 설계, 데이터 분석, 논문 작성까지 전 과정을 인간의 개입 없이 수행했으며, 제출된 3편의 논문 중 1편이 6, 7, 6점이라는 합격 수준의 점수를 받았다.

하지만 전문가들은 이 성과에 대해 신중한 평가를 내리고 있다. 캐나다 앨버타대학교의 매튜 구즈디얼 교수는 “사카나 연구진이 여러 생성된 논문 중에서 인간의 판단으로 선별한 것이므로, AI 단독이 아닌 인간과 AI의 협업 효과를 보여주는 것”이라고 지적했다.
또한 워크숍의 채택률이 메인 컨퍼런스보다 2-3배 높다는 점도 고려해야 한다고 강조했다.

■ 현재 AI 과학자 시스템의 한계점 분석

최근 발표된 “How Far Are AI Scientists from Changing the World?” 연구에 따르면, 현재 AI 과학자 시스템들은 여전히 근본적인 한계를 안고 있다. 연구진은 AI 과학자 시스템의 핵심 역량을 네 가지로 분류하여 분석했다.

◆ 지식 획득 능력은 발전, 검증 과정엔 한계

AI 과학자 시스템은 과학 문헌에서 정보를 검색하고 요약하는 지식 획득 분야에서는 상당한 발전을 보이고 있다. 또한 독창적 가설을 생성하는 아이디어 창출 능력도 개선되고 있는 상황이다.

하지만 생성된 가설을 실험으로 체계적으로 검증하거나 반증하는 능력에서는 여전히 부족함을 드러내고 있다. 특히 실험 설계와 실제 검증 과정에서의 정확성과 효율성 문제가 주요 걸림돌로 지적되고 있다.

◆ 논문 품질 평가에서 드러난 취약점들

AI가 생성한 논문들을 분석한 결과, 여러 가지 구조적 결함이 발견됐다. 가장 흔한 문제로는 실험적 취약성이 100%의 논문에서 나타났으며, 방법론적 불명확성이 96.4%, 새로움 부족이 89.3%의 빈도로 관찰됐다.

사카나AI도 자사 AI 시스템이 때때로 “당황스러운” 인용 오류를 범한다고 인정했다. 예를 들어 LSTM 신경망의 발명을 1997년 호크라이터와 슈미드후버가 아닌 2016년 굿펠로우의 연구로 잘못 인용하는 등의 실수가 발생했다.

■ 기존 LLM의 근본적 문제점들

◆ 환각 현상의 악화

최근 애플의 연구에 따르면 추론 모델들이 복잡한 문제에 직면했을 때 ‘완전한 정확도 붕괴’를 겪는다는 사실이 밝혀졌다. 더욱 우려스러운 것은 오히려 고급 모델일수록 환각 현상이 더 자주 발생한다는 점이다. OpenAI의 기술 보고서에서도 o3 모델과 o4-mini 모델이 각각 33%, 48%의 환각률을 보인 반면, 이전 o1 모델은 16%에 그쳤다고 발표했다.

◆ 지식 갱신과 학습의 비효율성

현재 AI 과학자 시스템들이 해결해야 할 또 다른 과제는 지식 갱신의 비효율성과 ‘치명적 망각(catastrophic forgetting)’ 문제다. 이는 새로운 정보를 학습할 때 기존에 습득한 지식을 잃어버리는 현상으로, 과학 연구에서 지속적인 지식 축적이 필요한 특성과 맞지 않는다.

■ 전문가들의 신중한 전망

◆ 마이크로소프트의 AI 과학 플랫폼 발표

마이크로소프트는 올해 5월 Build 2025 컨퍼런스에서 ‘Microsoft Discovery’라는 AI 기반 과학 발견 플랫폼을 발표했다. 이 플랫폼은 과학적 지식 추론부터 가설 형성, 후보 생성, 시뮬레이션 및 분석까지 전체 발견 과정을 에이전틱 AI로 변환한다고 밝혔다.

하지만 많은 연구자들은 현재의 AI가 과학 과정을 안내하는 데 특별히 유용하다고 생각하지 않는다고 전문가들은 지적한다. 주된 이유는 AI의 신뢰성 부족 때문이다.

◆ 학계 전문가들의 냉정한 평가

킹스칼리지 런던의 마이크 쿡 연구원은 동료 심사자들과 워크숍의 엄격성에 의문을 제기했다. 또한 2021년 발표된 ‘노벨 튜링 챌린지’에서 제시된 목표인 “2050년까지 노벨상급 과학적 발견을 할 수 있는 AI 시스템 개발”은 여전히 요원해 보인다는 것이 전문가들의 공통된 의견이다.

■ 향후 개선 과제와 전망

◆단기적 개선 필요 영역

현재 AI 과학자 시스템이 더 발전하기 위해서는 여러 영역에서의 개선이 필요하다. 먼저 기초 모델의 환각 현상과 지식 갱신의 비효율성, 치명적 망각 문제를 해결해야 한다.

또한 정확한 지식 검색과 고품질 가설 생성, 실험 설계 및 코드 구현 능력의 향상이 시급하다. 특히 장기적 연구 주기를 관리할 수 있는 정교한 계획 수립과 자율적 학습 메커니즘의 도입이 필요하다.

◆ 표준화와 협력 체계 구축

전문가들은 AI 과학자 간 협력을 강화하는 표준화된 소통 프로토콜 개발의 필요성도 강조하고 있다. 이는 개별 AI 시스템의 한계를 극복하고 더 복잡한 과학적 문제를 해결하는 데 핵심적 역할을 할 것으로 예상된다.

◆ 결론: 과도기적 성과와 현실적 한계

현재 연구 결과에 따르면 AI 과학자 시스템들이 완전한 자율성을 갖춘 성숙한 과학 지능체로서 인류가 직면한 중대한 문제를 독립적으로 해결하는 수준에는 아직 크게 못 미치는 것으로 평가된다.

하지만 AI 기술의 급속한 발전을 고려할 때, 향후 몇 년 내에 더 정교하고 신뢰할 수 있는 AI 과학자 시스템이 등장할 가능성은 충분하다. 중요한 것은 이러한 시스템들이 인간 과학자를 완전히 대체하는 것이 아니라, 과학 연구의 효율성을 높이고 새로운 발견의 속도를 가속화하는 협력 도구로서 발전하는 것이다.

현재 AI 과학자 시스템은 논문당 약 15달러의 비용으로 연구를 수행할 수 있어 연구 민주화와 과학적 진보 가속화의 잠재력을 보여주고 있다. 하지만 진정한 과학적 혁신을 위해서는 아직 인간의 창의성과 전문성이 필수적이며, AI는 이를 보완하는 역할에 머물러야 할 것으로 전망된다.

앞으로 AI 과학자 시스템이 과학계에 미칠 영향은 기술적 발전뿐만 아니라 과학계의 윤리적 기준과 투명성 확보 노력에 따라 크게 좌우될 것으로 보인다.