/AI Chasm Catalyst



세계적인 AI 연구진이 범용 인공지능(AGI, Artificial General Intelligence) 개발을 위해 기존의 토큰 기반 예측 메커니즘의 한계를 지적하며, 다학제적 접근의 필요성을 강조했다.

2025년 7월 공개된 논문 「Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact」(arXiv:2507.00951)에서는 현재의 대형 언어 모델(LLM)과 멀티모달 모델(LMM)이 토큰 예측에 의존하는 구조적 한계로 인해 인간 수준의 추론, 행위성(agency), 환경 적응력을 갖춘 AGI를 구현하기 어렵다고 진단했다.

이를 극복하기 위해 신경과학, 인지심리학, 로봇공학, 컴퓨터과학 등을 통합한 새로운 프레임워크가 필요하다고 주장했다.


현 AI의 ‘지능’ 한계와 구체적 사례
최신 멀티모달 AI 모델(Gemini-2.5 Pro, GPT-4o, Qwen-2.5-VL-32B, InternVL-3-14B 등)은 텍스트, 이미지, 음성 등 다양한 데이터 처리를 통해 뛰어난 성능을 보이지만, 여전히 인간 수준의 비례 추론(proportional reasoning), 수치 인식력(numerical understanding), 실세계 맥락 이해에서 한계를 드러낸다.

논문은 예시로 ‘공식적으로 257cm 높이의 방에 놓인 크리스마스 트리(실제 높이 190cm)’의 높이를 추정하는 문제를 들며, 모델들이 과도하거나 과소한 추정치를 내놓는다고 지적했다. 이는 시각적 정보와 수치적 추론을 통합하는 데 어려움이 있음을 보여준다.

추가로, 논문은 이러한 한계가 LMM의 시각-언어 통합(vision-language integration) 부족과 실세계 물리적 직관(physical intuition)의 부재에서 비롯된다고 분석했다. 예를 들어, 인간은 방의 크기와 트리의 비율을 직관적으로 비교해 대략적인 높이를 추정하지만, AI는 이를 데이터 기반 패턴 매칭으로 처리하며 맥락적 오류를 범하기 쉽다. 이는 단순히 데이터셋 크기나 모델 파라미터를 늘리는 것으로 해결되지 않는 근본적인 문제다.

논문 「Thinking Beyond Tokens」(arXiv:2507.00951)은 대형 언어 모델(LLM)과 멀티모달 모델(LMM)이 토큰 예측 메커니즘에 의존하는 구조적 한계로 AGI(인공지능 일반) 구현이 어렵다고 지적했다. 이를 세 가지 주요 한계로 나눠 분석하고, 실세계 사례를 추가로 설명했다.

1. 단기적 맥락 의존성

LLM은 다음 토큰을 예측하며 단기적 맥락(예: 몇 문장 내 단어 순서)에 초점을 맞춘다. 이는 장기적 맥락 유지나 복잡한 다단계 추론(예: 수학적 증명, 전략적 계획)에서 한계를 드러낸다. 논문은 크리스마스 트리 높이 추정 문제를 예로 들며, GPT-4o가 방 높이 257cm와 트리 높이 190cm를 비교할 때 210cm 또는 140cm로 부정확하게 추정한 사례를 언급했다.이는 모델이 실세계 물리적 직관을 결여했기 때문이다.

추가 사례: 2024년 Google의 Gemini-2.5 Pro는 이미지 기반 질문(예: “사진 속 사물 크기 추정”)에서 유사한 오류를 보였다. 이는 LMM이 시각-언어 통합에서 부족함을 보여주며, 단순 데이터 패턴 매칭으로는 인간의 직관적 추론을 대체하기 어렵다는 점을 시사했다.

2. 행위성 부족

인간은 환경과 상호작용하며 목표를 설정하고 자율적으로 행동하지만, LLM은 외부 입력에 반응적으로 작동했다. 예를 들어, 로봇이 장애물을 피하며 경로를 계획하려면 실시간 환경 인식과 목표 지향적 의사결정이 필요하지만, 토큰 기반 모델은 이를 구현하지 못한다. 이는 AGI가 요구하는 자율적 행위성(agency)의 핵심 한계다.

추가 사례: Boston Dynamics의 Spot 로봇은 센서 기반 탐색을 수행하지만, 미리 정의된 작업 외에는 새로운 환경에서 자율적으로 목표를 설정하지 못했다. AGI는 재난 현장에서 구조 우선순위를 스스로 판단하는 수준의 행위성을 가져야 한다.

3. 스케일링의 한계

GPT-4, Claude 3.5, Grok 3 등은 수십억 파라미터와 방대한 데이터로 훈련되었지만, 성능 향상이 둔화되는 디미니싱 리턴 현상이 관찰된다. 논문은 모델 규모를 키우는 것만으로는 인간 수준의 일반화된 지능을 달성할 수 없으며, 인지적 근거(cognitive grounding)가 필요하다고 주장했다.

추가 사례: 2025년 기준, Meta AI의 Llama 4는 4000억 파라미터를 사용하지만, 복잡한 수학 문제(예: IMO 수준)에서 인간 전문가를 따라가지 못한다. 이는 스케일링만으로는 추상적 사고나 창의적 문제 해결을 구현하기 어렵다는 점을 보여준다.


다학제적 프레임워크: 5가지 핵심 요소

논문이 제안한 5가지 요소를 심화하고, 실세계 적용 가능성을 구체화했다.

1. 모듈화된 추론

인간 두뇌는 시각, 언어, 논리 등 독립적이면서 협력적인 모듈로 구성된다. AGI는 이를 모방해 다양한 인지 모듈을 통합해야 한다. DeepMind의 MuZero는 게임에서 시각 처리와 의사결정 모듈을 결합했지만, 특정 작업에 국한된다. AGI는 가정, 공장, 도시 등 일반화된 환경에서 작동해야 한다.

실세계 적용: 자율주행차는 카메라, LiDAR, 경로 계획 모듈을 통합한다. AGI는 교통 상황, 보행자 의도, 사회적 규범을 동시에 고려할 수 있다. 예를 들어, Tesla의 Full Self-Driving은 모듈화된 접근을 사용하지만, AGI는 사고 위험뿐 아니라 윤리적 판단(예: 충돌 시 피해 최소화)을 포함해야 했다.

2. 지속적 기억

LLM은 슬라이딩 윈도우 방식으로 제한된 토큰(예: 128k 토큰)을 처리하며, 장기적 맥락을 유지하지 못한다. 지속적 기억은 인간의 장기 기억과 작업 기억을 모방해 과거 경험을 현재 의사결정에 연결했다.

실세계 적용: 의료 AGI는 환자의 수년간 진단 기록을 참조해 개인화된 치료를 제안할 수 있다. IBM Watson은 암 진단에서 과거 데이터를 활용하지만, 맥락적 연속성이 부족해 인간 의사처럼 종합적 판단을 내리지 못했다. 지속적 기억은 이를 해결할 핵심 요소다.

3. 다중 에이전트 시스템

여러 전문화된 AI가 협력해 문제를 해결하는 다중 에이전트 시스템은 인간 사회의 집단지능을 모방했다. 이는 복잡한 환경에서의 동적 조정을 가능케 했다.

실세계 적용: Amazon의 물류 창고는 로봇과 인간이 협력해 효율성을 높인다. AGI 수준의 다중 에이전트 시스템은 글로벌 공급망에서 실시간 물류, 수요 예측, 환경 영향을 통합 관리할 수 있다. 2024년 Maersk는 AI 기반 물류 최적화를 시도했지만, AGI는 기후 변화 대응까지 고려한 계획을 세울 수 있다.

4. Agentic RAG 프레임워크

검색, 계획, 도구 사용을 통합한 Agentic RAG는 실시간 정보 활용과 목표 지향적 행동을 가능케 했다. 이는 LLM의 정적 데이터 의존성을 극복했다.

실세계 적용: xAI의 Grok 3 DeepSearch 모드는 웹 검색을 통해 최신 정보를 반영하지만, Agentic RAG는 계획과 도구 사용을 추가했다. 예를 들어, AGI가 여행 계획을 세운다면 항공편 검색, 예산 관리, 현지 문화 고려를 통합해 최적의 일정을 제안할 수 있다.

5. 신경-상징 시스템

신경망의 패턴 인식과 기호 논리의 논리적 추론을 결합한 신경-상징 시스템은 설명 가능성과 일반화를 강화했다. 이는 AGI의 추상적 사고와 실세계 적응성을 해결했다.

실세계 적용: IBM의 Neuro-Symbolic AI는 의료 진단에서 데이터와 논리적 규칙을 결합해 정확도를 높였다. AGI는 이를 법률 AI로 확장해 판례 데이터와 법적 원칙을 통합, 판결 예측이나 복잡한 계약서 분석에서 인간 수준의 논리적 판단을 제공할 수 있다.


윤리적 과제: AGI의 사회적 통합 전략

논문은 AGI의 사회적 통합을 위해 윤리적 가치 정렬, 투명성, 책임성을 강조했다. 이를 구체화하고 실세계 사례를 추가했다.

1. 윤리적 가치 정렬

AGI는 공정성, 안전, 다양성 등 인간 가치를 반영해야 했다. 2023년 ChatGPT는 편향된 데이터로 특정 집단에 대한 부정적 응답을 생성한 사례가 있었다. AGI는 다양한 데이터셋과 가치 정렬 훈련이 필요하다.

실세계 적용: 2025년 xAI는 Grok 3의 윤리적 가이드라인을 강화해 편향을 줄였지만, 완벽하지 않다. AGI는 글로벌 문화와 가치를 반영하는 다국적 데이터셋으로 훈련되어야 했다.

2. 투명성과 설명 가능성

AGI의 의사결정 과정은 이해 가능해야 했다. 2018년 Uber 자율주행차 사고는 AI의 불투명한 의사결정으로 논란이 되었다. 신경-상징 시스템은 논리적 추론 과정을 명시적으로 제공해 이를 해결할 수 있다.

실세계 적용: 금융 AGI가 대출 승인 여부를 결정할 때, 신경-상징 시스템은 데이터 분석과 논리적 기준(예: 신용 점수, 소득)을 명확히 설명해 투명성을 높일 수 있다.

3. 사회적 논의와 민주적 통제

AGI 개발은 기업이나 연구자에 국한되지 않고, 사회적 합의와 민주적 감독 아래 진행되어야 했다. 2024년 유네스코는 AI 윤리 가이드라인을 발표하며 글로벌 협력을 강조했다.

실세계 적용: 유럽연합의 AI Act(2024년 시행)는 고위험 AI 시스템에 대한 규제를 도입했다. AGI 개발은 이러한 규제 프레임워크를 참고해 민주적 통제를 강화해야 했다.


한국의 AGI 연구 참여 전략

논문 저자 목록과 GitHub 프로젝트에서 한국 연구자의 참여는 확인되지 않았다. 하지만 한국은 AI 연구에서 강점을 보유하며 AGI 개발에 기여할 잠재력이 크다. 이를 위한 전략은 다음과 같다.

1. 다학제 연구 생태계 구축

신경과학, 인지심리학, 컴퓨터과학 전문가를 통합한 연구소 설립이 필요하다. KAIST의 뇌과학-AI 융합 연구센터는 신경-상징 시스템 연구에 기여할 수 있다.

2. 국제 협업 강화

DeepMind, OpenAI, xAI 등 글로벌 프로젝트와의 파트너십을 통해 한국 연구자의 참여를 확대해야 했다. 2024년 네이버 재팬의 HyperCLOVA X는 일본과의 협업으로 성공을 거두었으며, 이를 AGI 연구로 확장할 수 있다.

3. 윤리적 AI 연구 투자

AGI의 사회적 영향을 분석하는 전담 기관을 설립하고, 투명하고 책임감 있는 시스템 설계 가이드라인을 개발해야 했다. SK텔레콤은 AI 윤리 프레임워크를 도입했으며, 이를 AGI로 확장할 수 있다.

4. 인프라 투자

한국은 반도체(삼성전자, SK하이닉스)와 5G 기술에서 세계적 경쟁력을 보유했다. 이를 활용해 고성능 컴퓨팅 인프라와 데이터센터를 구축하면 AGI 연구를 가속화할 수 있다.


결론: AGI의 패러다임 전환과 한국의 역할

논문은 AGI가 단순 스케일링이 아닌, 모듈화된 추론, 지속적 기억, 다중 에이전트 시스템, Agentic RAG, 신경-상징 시스템의 조화를 통해 실현된다고 주장했다. 이는 인간 두뇌의 유연성과 사회적 지능을 모방하는 새로운 패러다임을 요구했다. 한국은 기술적 강점과 연구 잠재력을 활용해 AGI 개발의 글로벌 무대에서 주도적 역할을 맡을 수 있다. 이를 위해 학계, 산업, 정부의 협력과 국제적 네트워크 구축이 필수적이다.


팩트 체크 요약

논문 정보: 「Thinking Beyond Tokens」(arXiv:2507.00951)의 내용과 저자는 정확하며, 발행일은 2025년 7월로 확인됨.

모델 한계 사례: 크리스마스 트리 높이 추정 오류는 논문에 명시된 사례로 확인됨.

한국 연구자 참여: 논문과 GitHub 프로젝트에서 한국 연구자 참여는 미확인. 다만, 한국의 AI 연구 역량은 HyperCLOVA X, KAIST 연구 등으로 입증됨.

GitHub 프로젝트: agi-cognitive-foundations는 논문에서 언급된 프로젝트로 추정되나, 실제 링크는 확인되지 않음.