중국 인공지능 기업 Z.ai(구 Zhipu AI)가 최신 대형 언어 모델(LLM) 'GLM-4.5'를 28일 공개했다. 이 모델은 최근 발표된 여러 LLM 성능 평가에서 오픈소스 모델 중 최고 성능을 보여 업계의 주목을 받고 있다.
Z.ai가 자체 벤치마크 테스트 결과에 따르면, GLM-4.5는 12개 주요 벤치마크에서 OpenAI의 o3, xAI의 Grok 4에 이어 전체 3위를 차지했다. 특히 오픈소스 모델 중에서는 가장 높은 성능을 기록했다.
◆LLM 성능 평가 벤치마크 결과
공개된 성능 평가 자료에 따르면, GLM-4.5는 전체 성능 점수 63.2점으로 o3(65.0점), Grok 4(63.6점)에 이어 3위를 기록했다. 특히 코딩 부문에서는 68.8점으로 테스트된 모델 중 가장 높은 성능을 보였다.
이번에 공개된 모델은 GLM-4.5와 경량화 버전인 GLM-4.5-Air 두 가지다. GLM-4.5는 총 3,550억 개의 매개변수와 320억 개의 활성 매개변수를 갖추고 있으며, GLM-4.5-Air는 1,060억 개의 총 매개변수와 120억 개의 활성 매개변수를 갖추고 있다.
두 모델 모두 복잡한 추론과 코딩, 에이전트 작업에 특화된 하이브리드 추론 모델로, 복잡한 사고가 필요한 '_thinking_' 모드와 즉각적인 응답을 위한 '_non-thinking_' 모드를 제공한다. 또한 12만 8천 토큰의 컨텍스트 길이를 지원한다.
Z.ai는 GLM-4.5 모델을 MIT 라이선스 하에 오픈소스로 공개했다. 이는 중국 AI 기업들이 최근 글로벌 시장에서 경쟁력을 높이기 위해 오픈소스 전략을 적극 취하고 있는 추세를 반영한다.
Simon Willison AI 전문가는 자신의 블로그에서 "Z.ai의 자체 벤치마킹에서 GLM-4.5는 o3와 Grok-4에 이어 3위를 차지했으며, Claude Opus 4보다 약간 앞섰다"며 "GLM-4.5 Air는 6위를 차지해 Claude 4 Sonnet보다 조금 앞선 성능을 보였다"고 평가했다.
GLM-4.5 모델은 150조 개의 일반 사전 학습 토큰과 70조 개의 코드 및 추론 코퍼스에 대한 추가 학습을 거쳤다.
또한 강화학습(RL)을 통해 에이전트 기능을 향상시켰으며, 특히 정보 검색 기반 QA와 소프트웨어 엔지니어링 분야에서 검증 가능한 작업에 중점을 두고 훈련되었다.
Z.ai는 "기존의 DeepSeek-V3 및 Kimi K2와 달리, 모델의 폭(은닉 차원 및 라우팅된 전문가 수)을 줄이고 높이(레이어 수)를 늘렸다"며 "더 깊은 모델이 더 나은 추론 능력을 보인다는 것을 발견했다"고 설명했다.
특히 코딩 능력 평가를 위해 Claude Code를 활용한 벤치마크 테스트에서는 GLM-4.5가 Kimi K2에 대해 53.9%의 승률을 보였으며, Qwen3-Coder에 대해서는 80.8%의 우세한 성능을 보였다.
다만 Claude-4-Sonnet과 비교할 때는 추가 최적화 기회가 남아 있는 것으로 나타났다.
이번 GLM-4.5 출시는 오픈소스 LLM 시장에서 중국 기업들의 경쟁력이 글로벌 최고 수준에 근접했음을 보여주는 사례로 평가받고 있다. 또한 추론, 코딩, 에이전트 기능을 통합한 모델의 등장은 AI 응용 프로그램의 다양한 확장 가능성을 제시하고 있다.
Z.ai 모델의 성능과 오픈소스 전략은 향후 AI 모델 개발 방향에도 영향을 미칠 것으로 예상된다. 특히 MIT 라이선스로 공개된 점은 연구자와 개발자들이 이를 기반으로 더 다양한 응용 프로그램을 개발할 수 있는 기회를 제공할 것으로 보인다.
◆한중 AI 기술격차, 기로에 선 국내 LLM 경쟁력
Z.ai의 GLM-4.5 모델과 국내 업스테이지의 Solar Pro 2를 비교하면 한국과 중국 간 인공지능 기술 격차가 뚜렷하게 드러난다.
GLM-4.5는 전체 매개변수가 3,550억 개로, 업스테이지 Solar Pro 2의 310억 개에 비해 10배 이상의 규모를 자랑한다.
이러한 모델 규모의 차이는 곧 두 국가 간 AI 기술력과 투자 규모의 격차를 여실히 보여준다.
글로벌 벤치마크 결과에서도 이러한 차이는 명확하게 나타난다. GLM-4.5는 12개 주요 벤치마크에서 63.2점을 기록하며 오픈AI와 xAI에 이어 당당히 3위를 차지했지만, Solar Pro 2는 아티피셜 애널리시스의 '지능 지표' 평가에서 58점으로 12위에 머물렀다.
특히 코딩 부문에서 GLM-4.5는 68.8점으로 테스트된 모델 중 최고 성능을 보인 반면, Solar Pro 2는 이에 미치지 못하는 것으로 평가받았다.
가장 주목할 만한 차이점은 데이터 학습량이다. GLM-4.5는 무려 150조 개의 일반 사전 학습 토큰과 추가로 70조 개의 코드 및 추론 코퍼스로 학습되었다.
이는 국내 기업들이 확보할 수 있는 데이터 규모를 크게 웃도는 수준이다. 국내 기업들은 상대적으로 제한된 데이터와 컴퓨팅 자원으로 인해 대규모 모델 학습에 어려움을 겪고 있다.
업스테이지는 현재 1,000억 매개변수 규모의 차세대 LLM을 개발 중이지만, 이미 중국은 Z.ai를 비롯해 알리바바의 Qwen, Baidu의 ERNIE, 그리고 문샷 AI의 Kimi K2 등 수천억 매개변수 규모의 모델들을 연이어 출시하고 있다.
글로벌 AI 시장에서 기술 주도권을 차지하기 위한 치열한 경쟁에서 한국은 중국과의 격차를 좁히기 위해 더 과감한 투자와 전략적 접근이 필요한 상황이다.
Solar Pro 2가 국내 유일하게 글로벌 프런티어 모델로 평가받은 것은 분명 성과이지만, Z.ai의 GLM-4.5와 같은 중국 모델들과의 격차는 단순한 기업 간 경쟁을 넘어 국가 간 AI 기술 경쟁에서 한국이 직면한 도전을 상징적으로 보여준다.
한국이 AI 강국으로 발돋움하기 위해서는 대규모 언어 모델 개발에 대한 국가적 차원의 지원과 데이터 확보, 컴퓨팅 인프라 구축이 시급하다.