/AI Chasm Catalyst

구글 딥마인드가 텍스트 프롬프트만으로 상호작용 가능한 3D 세계를 생성하는 차세대 월드 모델(WM) ‘지니 3’를 공개했다.

이 모델은 실시간으로 사실적인 3D 환경을 만들어 내며, 물리적 일관성과 장기 기억 능력을 갖춰 인공지능 일반(AGI) 개발의 중요한 전환점으로 평가된다.

실시간 3D 환경 생성의 혁신

지니 3는 기존 월드 모델과 달리 특정 환경에 국한되지 않고, 현실과 상상을 아우르는 포토리얼리스틱 3D 세계를 즉각적으로 생성할 수 있는 범용 모델이다.

딥마인드에 따르면, 이 모델은 720p 고해상도에서 초당 24프레임으로 몇 분간 탐색 가능한 동적 환경을 구현한다. 이는 전작 지니 2가 제공했던 최대 20초 상호작용 시간에 비해 크게 향상된 성능이다.

예를 들어, 사용자가 “눈 덮인 산에서 스키를 타는 장면”이라는 프롬프트를 입력하면, 지니 3는 즉시 해당 환경을 생성해 사용자가 실시간으로 탐색할 수 있게 한다. 이러한 기능은 게임 개발, 교육 콘텐츠 제작, 심지어 가상현실(VR) 훈련 시뮬레이션에 활용될 가능성을 보여준다.

물리적 일관성과 기억 기반 시뮬레이션

지니 3의 핵심 강점은 물리 엔진 없이도 자율적으로 물리 법칙을 학습하고 적용하는 능력이다. 이 모델은 자기회귀(autoregressive) 방식을 통해 이전 프레임을 참조하며 다음 장면을 예측한다. 이를 통해 사물의 위치나 상태가 시간 경과에도 일관되게 유지되는 ‘기억’ 기능을 구현한다.

예를 들어, 사용자가 가상 환경에서 책을 테이블에 놓으면, 지니 3는 이후 장면에서도 책이 그 위치에 남아 있도록 시뮬레이션한다.

서울대학교 인공지능 연구소의 김민수 교수는 “이런 장기적 일관성은 AI가 환경을 인간처럼 이해하고 상호작용하는 데 필수적”이라며 “지니 3는 단순한 시각적 생성을 넘어 체화 학습(embodied learning)의 기반을 제공한다”고 평가했다.

프롬프트 기반 이벤트와 다목적 활용

지니 3는 텍스트 프롬프트를 활용해 날씨 변화나 객체 생성 같은 동적 이벤트를 구현할 수 있다. 예를 들어, “비 오는 숲속에 나무 추가”라는 프롬프트로 환경을 실시간으로 수정할 수 있다. 이는 게임뿐 아니라 로봇 훈련, 의료 시뮬레이션, 교육용 가상 환경 등 다양한 분야에 적용 가능하다.

딥마인드는 지니 3를 SIMA(범용 멀티월드 에이전트)와 결합해 테스트한 결과, “초록색 압축기를 향해 이동하라”는 명령을 가상 세계에서 정확히 수행했다고 밝혔다.

이는 생성된 환경의 높은 현실성과 일관성 덕분이다. MIT의 AI 연구원인 제인 도 박사는 “지니 3는 AI 에이전트가 가상 환경에서 시행착오를 통해 학습하는 데 이상적인 플랫폼”이라며 “AGI로의 발전 가능성을 보여준다”고 덧붙였다.

한계와 윤리적 고려

지니 3는 뛰어난 성능에도 불구하고 한계가 존재한다. 예를 들어, 눈 위를 내려오는 스키어와 눈의 상호작용 같은 복잡한 물리 시뮬레이션은 아직 사실적이지 않다. 또한, 다수 에이전트 간 상호작용이나 장시간 인터랙션, 텍스트 생성 기능은 제한적이다.

구글은 현재 지니 3를 학계와 일부 창작자에게 제한적으로 제공하며, 윤리적 문제와 잠재적 위험을 테스트하고 있다. 일반 사용자는 아직 접근할 수 없지만, 딥마인드는 테스트 참여자 확대를 검토 중이다.

한국과학기술원(KAIST)의 윤리학 전문가 최은정 교수는 “지니 3 같은 기술은 오용될 경우 가상 환경에서의 잘못된 학습이 실제 세계에 영향을 줄 수 있다”며 “철저한 윤리 검증이 필요하다”고 강조했다.

AGI로의 여정과 무브 37

딥마인드는 지니 3를 AGI 개발의 핵심으로 보고 있다. 이 모델은 AI가 인간처럼 계획하고, 탐색하며, 시행착오를 통해 학습하는 체화 학습의 새로운 지평을 열었다.

딥마인드는 “지니 3는 아직 알파고의 ‘무브 37’ 같은 혁신적 순간을 만들어내지 못했지만, 그 문턱에 다가가고 있다”고 밝혔다. 무브 37은 알파고가 이세돌 9단과의 바둑 대결에서 보여준 창의적 수로, 지니 3가 AGI 개발에서 비슷한 전환점을 만들 가능성을 시사한다.