/AI Chasm Catalyst
폐쇄형 혁신, DeepMind의 Genie 3
2025년 8월 초, DeepMind는 실시간 상호작용형 세계 모델 Genie 3를 공개했다.
이 모델은 텍스트 프롬프트로 3D 환경을 즉시 생성하며, 720p 해상도·초당 24프레임 속도를 지원한다. 사용자의 상호작용은 약 1분간 유지되어, 벽에 칠한 흔적이나 객체 위치 변화가 화면 밖을 벗어나도 그대로 남는다.
다만 Genie 3는 일부 연구자와 크리에이터만 접근할 수 있는 제한적 형태이며, 학습 데이터·모델 구조는 비공개다. 전문가들은 “물리 법칙 시뮬레이션과 다중 에이전트 상호작용 같은 복잡한 상황에서는 아직 게임 엔진 수준에 못 미친다”고 평가한다.
오픈소스 반격, Matrix-Game 2.0
이에 맞서 Skywork AI는 Matrix-Game 2.0을 완전 오픈소스(MIT 라이선스)로 공개했다.
누구나 GitHub와 Hugging Face에서 모델을 내려받아 수정·활용할 수 있다.
이 모델은 초당 25프레임으로 수분 단위의 영상을 실시간 생성하며, 마우스와 키보드 입력을 직접 반영해 캐릭터 이동, 회전, 탐험을 제어한다. 학습에는 Unreal Engine·GTA 기반 약 1,200시간 규모의 대규모 인터랙티브 데이터셋이 사용됐다.
벤치마크 결과, 기존 오픈소스 모델(Oasis)에 비해 이미지 품질, 시간적 일관성, 입력 반응 정확도, 객체 안정성, 시나리오 지속성 등 대부분의 지표에서 향상된 성능을 보였다.
전문가·커뮤니티 평가
Hacker News에서는 Genie 3를 두고 “실시간 생성과 객체 기억의 결합은 세계 모델 발전의 상징”이라는 평가가 나왔다. 그러나 “완벽한 물리 엔진 수준의 정밀함은 아직 요원하다”는 지적도 있었다.
반면 Reddit 커뮤니티는 Matrix-Game 2.0의 공개를 “오픈소스가 발전 속도를 가속할 것”이라며 환영했다. 일부는 “기술 격차는 남아 있지만, 개방형 개발의 특성상 몇 달 안에 간극을 좁힐 가능성이 크다”고 분석했다.
GPU 요구 사양과 훈련 비용 추정
Matrix-Game 2.0의 학습과 추론에는 고성능 GPU 환경이 필요하다.
공식 문서에 따르면, 실시간 25FPS 실행에는 최소 NVIDIA A100 40GB급 GPU 1~2장이 요구된다. 학습 시에는 수십억 프레임의 데이터 처리를 위해 A100 또는 H100급 GPU 클러스터가 필요하며, 약 1,200시간 데이터셋을 처리하는 데만 수십만 달러 규모의 연산 비용이 소요된 것으로 추정된다.
Genie 3 역시 유사한 수준의 GPU 요구 사양을 가질 것으로 보이지만, 비공개 구조로 인해 정확한 수치는 확인되지 않았다.
실제 적용 사례와 산업 활용 가능성
이 두 모델의 기술은 게임과 AI 연구를 넘어 여러 산업 분야에서 응용 가능하다.
게임 개발: 콘셉트 단계에서 프로토타입 환경을 신속히 생성해 테스트
로봇공학: 시뮬레이션 환경에서 자율 주행·물체 조작 훈련
교육·훈련: 가상 캠퍼스, 응급 구조 훈련 시나리오 제작
도시 계획: 가상 도시를 생성해 교통·환경 시뮬레이션 수행
영화·애니메이션: 프리비주얼 단계에서 환경과 장면 신속 제작
특히, Matrix-Game 2.0은 오픈소스이므로 스타트업과 연구소가 비용 부담 없이 기술을 실험하고 맞춤형으로 수정할 수 있다는 점이 큰 장점이다.
두 모델의 차이를 문장으로 비교
Genie 3는 폐쇄형 구조로 일부 연구자만 접근할 수 있지만, Matrix-Game 2.0은 전 세계 누구나 사용할 수 있다.
Genie 3의 실시간 생성은 초당 24프레임, 약 1분간 상호작용 유지에 그치지만, Matrix-Game 2.0은 초당 25프레임으로 수분 단위의 장면을 생성한다.
입력 방식에서도 Genie 3는 텍스트 프롬프트 중심이고, Matrix-Game 2.0은 마우스·키보드 입력으로 직접 캐릭터를 조종할 수 있다.
Genie 3의 학습 데이터는 비공개이지만, Matrix-Game 2.0은 공개된 대규모 게임 환경 데이터셋을 사용했다.
성능 면에서 Genie 3는 객체 기억과 장면 지속성에서 강점을 보이지만, Matrix-Game 2.0은 시간적 일관성·입력 반응성 등에서 더 높은 평가를 받았다.
무엇보다 공개 범위에서 Genie 3는 소수에 국한되지만, Matrix-Game 2.0은 누구나 다운로드·수정·재배포가 가능하다.
향후 기술 발전 방향
전문가들은 향후 세계 모델이 다음과 같은 방향으로 발전할 것으로 내다본다.
장기 메모리 강화: 수분에서 수시간 단위까지 환경 상태를 유지
물리 시뮬레이션 정밀화: 현실과 동일한 물리 법칙 재현
멀티 에이전트 상호작용: 여러 캐릭터·객체가 동시에 논리적으로 반응
경량화·최적화: 일반 GPU·소형 장치에서도 실시간 실행 가능
멀티모달 통합: 영상, 음성, 센서 데이터를 동시에 반영한 환경 생성
오픈소스 진영은 특히 경량화·멀티 에이전트 영역에서 빠른 속도로 기술을 발전시킬 가능성이 크다.
결론
Genie 3는 실시간 인터랙티브 세계 모델의 가능성을 증명했고, Matrix-Game 2.0은 이를 오픈소스 방식으로 개방하며 기술 민주화를 앞당기고 있다.
폐쇄형과 개방형의 경쟁 구도는 AI 세계 모델의 발전 속도를 결정지을 중요한 변수가 될 것이며, 오픈소스 진영이 더 많은 혁신을 주도할 가능성이 높다.