중국의 인공지능 스타트업 문샷 AI가 개발한 대형 언어모델(LLM) ’키미 K2(Kimi K2)’가 세계적 성능을 입증하며 주목받고 있다.
19일 중국 관영 신화통신은 국제 학술지 네이처(Nature)의 평가를 인용해, 키미 K2가 “서방권 유료 AI 모델과 대등하거나 그 이상의 성능”을 보였다고 전했다.
특히 코딩과 작문 등 주요 분야에서의 기술 완성도가 높아, 앞서 주목받았던 중국 LLM ’딥시크(DeepSeek)’와 비교되는 수준이라는 설명이다.
코딩과 수학 문제에서 최고 성능… GPT-4 넘어섰다는 평가도
키미 K2는 프로그래밍 능력에서 눈에 띄는 성과를 보였다. 소프트웨어 버그 해결 능력을 평가하는 SWE-bench에서 약 66%의 정답률을 기록했고, 실시간 코딩 능력을 평가하는 LiveCodeBench에서는 54%의 정답률을 기록했다.
이는 현재 공개된 LLM 가운데 가장 높은 수준에 해당한다.
수학 문제 해결 능력을 평가하는 MATH-500 테스트에서는 97.4%라는 매우 높은 정확도를 기록해, 고난도 논리 문제에서도 강점을 보인다는 분석이 나온다.
이러한 결과는 특히 기술 전문성과 정확성이 요구되는 응용 분야에서의 Kimi K2 활용 가능성을 높이는 지표로 평가된다.
감성지능과 창의성도 최고 수준… 그러나 고차원 추론은 숙제
작문 능력에서도 키미 K2는 인상적인 성과를 냈다. 자연스러움, 감성지능, 창의적 구성 등을 종합 평가하는 Creative Writing과 EQ 벤치마크 항목에서 모두 최고점을 획득했다.
인간의 감성을 파악하고 문맥에 맞는 글을 구성하는 데 강점을 보였다는 평가다.
반면, 연구 아이디어 생성처럼 고도의 인과 추론이 요구되는 영역에서는 아직 보완이 필요한 것으로 나타났다. 대표적으로 SciMuse 벤치마크에서는 구글의 제미나이(Gemini)나 오픈AI의 GPT-4에 비해 다소 낮은 점수를 기록했다.
전문가들은 이러한 결과를 바탕으로, Kimi K2가 정형화된 지식과 문제 해결에서는 강점을 보이지만, 복잡한 개념 창출이나 새로운 논리 전개에서는 아직 개선 여지가 남아 있다고 분석한다.
1조 파라미터 규모에도 연산 효율 높아… 혼합전문가 구조 채택
Kimi K2는 총 1조 개의 파라미터를 갖춘 초거대 모델이다. 그러나 혼합 전문가 구조(Mixture of Experts, MoE)를 적용해, 실제 연산 시에는 약 320억 개의 파라미터만을 활성화한다.
이 같은 설계 덕분에 상대적으로 적은 연산 자원으로도 높은 성능을 유지할 수 있으며, GPU 비용도 대폭 절감할 수 있다는 장점이 있다. 고성능과 효율성을 동시에 확보한 설계라는 평가다.
문샷 AI는 2023년 3월 중국 베이징에서 설립된 신생 기술 기업이다.
같은 해 11월 출시한 초기 모델 ‘키미’는 중국 내에서 세 번째로 많이 사용되는 챗봇으로 떠오르며 기술력을 입증했다. 특히 업계 최초로 20만자 이상의 장문 입력을 처리할 수 있는 기능을 공개해 주목받았다.
회사의 공식 명칭은 ‘베이징 달의 어두운 면 과학기술 유한회사’로, 창업자 양즈린(杨植麟)이 영국 록밴드 핑크 플로이드의 앨범 ‘The Dark Side of the Moon’에서 영감을 받아 지은 이름이다.
양즈린은 광둥성 출신으로, 칭화대를 수석 졸업한 뒤 미국 카네기멜런대에서 박사학위를 취득했다. 이후 페이스북 AI 리서치와 구글 브레인 등에서 연구 경험을 쌓았고,
현재는 칭화대 조교수로 재직 중이다. 중국 현지에서는 ‘90허우(90後)’ 세대의 대표적 기술 인재로 주목받고 있다.
중국 AI 생태계 급성장… 한국과의 격차 뚜렷해지는 중
문샷 AI와 같은 중국발 LLM 스타트업의 약진은, 단순한 모델 성능을 넘어 독자적인 AI 생태계 구축이라는 측면에서도 한국과의 뚜렷한 격차를 드러내고 있다.
중국은 최근 딥시크(DeepSeek), 지바이두(Ernie), 제로원, 미니맥스 등 대형 AI 스타트업들이 자국 내 GPU 수급, 연구 인재 풀, 풍부한 자금력과 결합되며 빠른 속도로 자체 기술을 상용화하고 있다.
특히 2023년 이후만 해도 수십 개의 LLM이 상용·베타 버전으로 출시됐다.
이에 비해 한국은 여전히 글로벌 대형 모델의 API를 활용한 응용 서비스 위주로 AI 기술을 발전시키는 형국이다.
LG AI연구원이 개발한 ‘엑사원’이나 네이버의 ‘하이퍼클로바X’ 등이 국내 독자 모델로 거론되지만, 공개 벤치마크와 기술 논문, 상용화 적용 범위 등에서 국제 경쟁력을 입증하는 사례는 아직 부족하다.
정부 주도의 투자 구조 한계… ‘민간 R&D → 글로벌 확장’ 선순환 필요
중국과 한국의 또 다른 결정적 차이는 기술 개발과 투자 주체의 구조에 있다. 문샷 AI는 설립 초기부터 거액의 벤처 자금 유치와 글로벌 연구 인재 영입을 통해 민간 주도의 기술 선순환 생태계를 구축했다.
반면 한국은 정부 주도의 연구개발 예산 의존도가 높고, 민간 투자 유치나 인재 영입 경쟁력에서는 글로벌 수준에 미치지 못한다는 지적이 꾸준히 제기된다.
특히 국내에서는 초거대 AI 모델 개발이 ‘기술 자립’이나 ‘산업 육성’이라는 구호에 그치는 경우가 많고, 실제 서비스로 이어지는 응용 확장성과 자생력 측면에서는 한계를 보이고 있다.
이는 GPU 인프라, 오픈소스 생태계, AI 스타트업의 글로벌 진출 역량 부족 등 여러 구조적 요인이 복합적으로 작용한 결과다.
AI 주권 경쟁, 미국-중국 중심 재편… 한국, ‘선택과 집중’이 관건
글로벌 AI 생태계는 현재 미국과 중국이 중심축이 되어 빠르게 재편되는 중이다. 모델의 성능 경쟁을 넘어서, 국가 차원의 인프라 확보, 인재 이동, 산업 융합 구조까지 포함된 ‘AI 주권’ 경쟁으로 확장되고 있다.
이런 가운데 한국은 자원과 인재, 시장 규모가 제한적인 만큼, 단일 모델 경쟁이 아니라 특화 분야 중심의 전략적 생태계 설계가 필요하다는 지적이 나온다.
의료, 반도체, 금융 등 고부가가치 산업과 AI 기술을 연결하는 방식으로 실용 중심의 독립 생태계를 구축해야 한다는 것이다.
한 AI 업계 관계자는 “이제는 LLM 하나를 만드는 것보다, 그 기술을 글로벌 시장에 맞게 전개하고 수익화할 수 있는 ‘비즈니스 설계 능력’이 더 중요한 시대”라며 “지금의 투자 구조나 전략으로는 AI 주권 경쟁에서 점점 더 소외될 수 있다”고 우려했다.