중국 알리바바가 2025년 7월 30일 업계 최초로 전문가 혼합(MoE, Mixture-of-Experts) 아키텍처를 적용한 대규모 오픈소스 비디오 생성 모델 시리즈 ‘완2.2(Wan2.2)’를 공개했다.
이 모델은 특히 텍스트·이미지 입력 기반 영상을 단일 프레임워크에서 생성할 수 있어 AI 기반 비디오 제작 온전한 자동화와 효율성의 기준을 새롭게 제시하고 있다.
◆모델 구성과 기능 ― 텍스트·이미지·하이브리드 지원
완2.2 시리즈는 세 가지 모델로 구성된다. 텍스트-투-비디오 ‘Wan2.2-T2V-A14B’, 이미지-투-비디오 ‘Wan2.2-I2V-A14B’, 그리고 두 방식 모두를 지원하는 하이브리드 모델 ‘Wan2.2-TI2V-5B’이다.
세 모델 모두 허깅페이스와 모델스코프에서 아파치-2.0 라이선스로 공개되어 누구나 상업적으로도 자유롭게 사용 가능하다.
◆혁신적 MoE(전문가 혼합) 구조 원리
완2.2의 MoE 구조는 동영상 생성 과정의 효율성과 품질을 동시에 극대화한다. 전체 270억 개의 파라미터로 구성되지만, 실제 추론에서는 고잡음(전체 구조 담당)과 저잡음(세부 묘사 담당) 두 전문가 중 하나만 활성화되어 매 단계에서 140억 개 파라미터만 작동한다. 이에 따라 연산자원 소모가 절반 수준까지 절감되면서, 고품질 시네마틱 영상을 빠르게 생성할 수 있다.
영상 생성 단계별로, 초기에는 영상의 구도 등 큰 틀을 설계하는 고잡음 전문가가 먼저 활성화되고, 점차 노이즈가 줄어들면서 세부 묘사와 디테일을 강화하는 저잡음 전문가로 전환된다.
이 전환의 시점은 신호대잡음비(SNR)라는 지표를 활용해 객관적으로 결정된다.업계 AI 영상 생성 연구자에 따르면 “MoE 기반으로 각 단계에 맞는 모델 전문가를 분리해 적용하는 방식은 고성능·저비용 생성의 새로운 공식이 될 수 있다”는 평가를 받고 있다.
◆정밀한 컨트롤과 진일보한 표현력
완2.2는 조명, 시간대, 색조, 카메라 앵글, 초점 거리 등 영상의 다양한 미적 요소를 프롬프트 한 줄로 세밀하게 제어할 수 있도록 설계됐다.
특히 인물의 표정 변화, 손 제스처, 스포츠 동작 등 복잡한 움직임 묘사와 함께 실제 물리 법칙에 가까운 영상 출력이 가능하다는 점이 전문가들 사이에서 높은 평가를 받고 있다.
◆전문가 진단 및 관련 사례
• AI 영상 분야의 한 교수는 “Wan2.2는 실사용자에게 중요한 연산 효율 개선뿐만 아니라, 크리에이티브워크의 미적 통제성에 새로운 수준을 제공한다. 저노이즈 구간에서만 세부 전문가가 개입하는 방식은 대규모 동영상 AI 모델 중 드문 접근”이라고 진단했다.
• 완2.2의 내부 벤치마크(완-벤치 2.0)와 공개된 생성 샘플에서는, 오픈AI의 Sora, Stability AI의 Stable Video와 같은 기존 모델들을 여러 항목에서 앞서는 결과가 확인됐다. 실제 미디어 기업 및 크리에이터 커뮤니티에서도 다양한 테스트 사례가 속속 등장하고 있다.
◆산업적·기술적 의의와 전망
알리바바의 완2.2 등장으로 오픈소스 기반 AI 영상 생성 시장의 기술표준이 크게 바뀔 전망이다. 일반 사용자와 영상 창작자, 소규모 기업에서도 적은 컴퓨팅 자원으로도 고품질 영상합성, 브랜드 광고, 스토리보드 제작 등에 활용할 수 있다는 점에서 실질적 파급력이 기대된다.
▶배포 및 활용 정보
• 완2.2 시리즈는 허깅페이스와 모델스코프 등 주요 AI 플랫포머를 통해 누구나 다운로드 가능하다.
• 상용 프로젝트에도 적용 가능한 아파치-2.0 라이선스이므로 제한 없이 쓸 수 있다.
▶참고: 완2.2 발표 이전 완시리즈(2.1)는 오픈AI Sora, 루마 등에 이어 벤치마크 Vbench(브이벤치)에서 데모 성능 1위를 차지한 바 있어, 이번 2.2로 업계 리더십을 강화했다는 평가다