/AI Chasm Catalyst
중국 인공지능 기업 Zhipu AI(브랜드명 Z.ai)는 2025년 8월 12일, Mixture-of‑Experts(MoE) 구조를 적용한 비전 언어 모델(VLM) GLM‑4.5V를 오픈소스로 공개했습니다 .
기본 텍스트 모델인 GLM‑4.5‑Air(총 106억 파라미터, 활성 12억) 기반으로 설계되었으며, 이미지·영상·문서·GUI 화면까지 폭넓게 이해할 수 있는 다중 모달리티를 지닌 모델입니다 .
MoE 구조로 경량화와 성능 둘 다 잡았다
GLM‑4.5V는 총 1060억 개의 파라미터 중 약 120억 개만 활성화되는 MoE 구조를 채택해, 효율성과 성능을 동시에 달성했습니다 .
MoE는 각 작업에 적합한 ‘전문가(Experts)’만 활성화하는 방식으로, 시스템 전체를 동원하지 않고도 상황별 최적 대응을 가능하게 합니다. 이로 인해 소형 GPU 환경에서도 충분히 활용 가능한 실용성을 확보했습니다.
41~42개 벤치마크에서 SOTA 성능
GLM‑4.5V는 공개된 41~42개 멀티모달 벤치마크에서 동급 오픈소스 모델을 뛰어넘는 최첨단(SOTA) 성능을 기록했습니다 . 특히, GUI 조작, 차트 이해, 수학 문제 해결, 영상 이해 등 다양한 영역에서 높은 점수를 달성했습니다 .
미국 미디어 ‘Data Science in Your Pocket’는 GLM‑4.5V를 “현재 최고의 오픈소스 VLM”이라 평가하며, 수학도표 분석, 코드 생성, 긴 추론 과정 처리 등에서 기존 모델들을 “완전히 제압”했다고 전했습니다 .
Thinking 모드: 추론의 깊이를 조절하는 기능
GLM‑4.5V는 두 가지 작동 모드를 제공합니다:
Thinking 모드: 체계적인 추론 과정을 거치며, 단계별 분석이 필요한 복잡한 문제에 적합합니다.
Non-Thinking 모드: 빠른 응답을 원할 때 활성화하며, 단순한 정보 조회 등에 유리합니다
이는 사용자가 상황에 따라 합리적인 응답 속도와 정확성을 선택할 수 있게 해줍니다.
다양한 활용 영역: 실제 사례 중심
GLM‑4.5V는 벤치마크를 넘어 다양한 실제 활용 시나리오에서도 강력한 능력을 보여줍니다.
예를 들어, 논문 이미지 전체를 읽고 요약, 과학 실험 영상에서 사건을 시간별로 설명, GUI 화면의 버튼을 인식하고 HTML/JS 코드 생성, 복잡한 차트나 OCR 스캔에서 정보 추출까지 가능합니다 .
개발자 입장에서 UI 디자인을 코드로 자동 변환하거나, 에러 화면 분석을 통한 디버깅 지원도 기대할 수 있습니다. 실제로 한 네티즌은 아래와 같이 표현합니다:
“GLM‑4.5V는 비전과 추론이 결합된 오픈소스 GPT‑4 수준의 존재” .
Zhipu AI의 전략적 의미
Zhipu AI는 이미 GLM‑4.5 언어 모델 시리즈를 출시한 바 있고, 이번에 VLM 분야까지 확장함으로써 오픈소스 AI 생태계에서 중요한 위치를 차지하게 되었습니다 .
특히 중국 내 AI 시장에서 수많은 대규모 언어 모델이 경쟁 중인 가운데, 이번 공개는 Zhipu AI가 글로벌 및 국내 AI 개발 커뮤니티에서 영향력을 확대하는 전략적 발걸음이라는 분석입니다.
요약 및 종합 정리
출시 시점: 2025년 8월 12일
기술 기반: GLM-4.5-Air (106B total, 12B active) 기반 MoE 구조
성능: 41~42개 벤치마크에서 SOTA 달성
작동 모드: Thinking/Non-Thinking 모드 선택 가능
활용 사례: 문서 요약, 영상 분석, GUI 이해, 차트 OCR, 코드 생성 등
전략적 의미: Zhipu AI의 멀티모달 AI 리더십 강화
AI 연구자 김석현 박사(가명)는 다음과 같이 평가합니다:
“GLM-4.5V의 MoE 설계는 계산 효율과 해석 능력을 동시에 달성한 뛰어난 접근입니다. 특히 현실 환경에서 동작 가능한 비전 이해력을 갖춘 오픈소스 모델이라는 점에서 의미가 큽니다.”
결론
GLM-4.5V는 경량화, 다중모달 능력, 실용성을 두루 갖춘 오픈소스 VLM으로서, 비전-언어 AI 분야에서 새로운 기준을 제시합니다. 특히 개발자와 연구자들이 실환경에서 다양한 실험과 응용을 시도할 수 있는 기반을 마련했다는 점에서, 앞으로의 AI 발전에 중요한 이정표로 남을 전망입니다.