/AI Chasm Catalyst

국내 인공지능 생태계는 자체 개발 대규모 언어 모델(LLM)을 앞세운 치열한 경쟁 시대를 맞이했습니다. 각 기업이 내세운 모델의 성능을 객관적으로 비교하고 평가하는 일은 사용자와 산업계 모두에게 중요한 과제가 되었습니다.

이러한 가운데, 디노티시아가 운영하는 리더보드는 국내 LLM의 한국어 성능을 종합적으로 진단하는 중요한 척도로 주목받고 있습니다.

이 리더보드의 최신 결과를 바탕으로 국내에서 개발된 주요 모델들의 성능 순위와 그 의미를 심층적으로 분석해 봅니다.

◆72B 모델의 압도적 성능, 규모의 중요성 재확인

현재 공개된 리더보드에서 가장 높은 성능을 기록한 모델은 SK텔레콤의 A.X-4.0 72B입니다. 720억 개의 파라미터를 자랑하는 이 거대 모델은 다른 모델들을 압도하는 성능을 보여주며 1위를 차지했습니다.

이는 LLM 분야에서 모델의 규모, 즉 파라미터 수가 성능에 미치는 영향이 여전히 지대함을 명확히 보여줍니다.

권투 선수의 체급이 경기력에 큰 영향을 미치는 것처럼, LLM에서도 거대한 규모는 복잡한 언어 패턴을 학습하고 정교한 추론 능력을 갖추는 데 결정적인 역할을 하는 셈입니다.

A.X-4.0의 선전은 거대 기업이 막대한 자본과 인프라를 바탕으로 개발한 초대형 모델이 기술적 한계를 넘어서는 데 성공했음을 증명합니다.

이는 향후 국내 LLM 시장에서 '규모의 경제'가 기술 경쟁의 핵심 축으로 작용할 것임을 시사합니다.

◆효율성과 성능의 조화, 중형 모델의 기술력 경쟁

72B 모델의 독주 속에서도 30B 규모의 중형 모델들은 기술적 역량을 뽐내며 치열한 경쟁을 벌이고 있습니다.

2위를 차지한 업스테이지의 Solar Pro2 31B는 310억 개의 파라미터를 기반으로 뛰어난 성능을 입증하며 강력한 도전자로 부상했습니다.

특히 Solar Pro2는 거대 모델에 버금가는 성능을 상대적으로 적은 자원으로 구현한 것으로 평가받아, 효율성과 성능을 모두 잡은 모델로 주목받고 있습니다.

이어 3위에는 디노티시아의 DNA 2.0 30B A3B 모델이 이름을 올렸습니다. 이 모델은 300억 개의 파라미터를 가진 전문가 혼합(MoE, Mixture of Experts) 구조를 채택하여 특정 작업에 특화된 여러 '전문가' 모델을 효율적으로 활용하는 방식으로 높은 성능을 달성했습니다.

MoE 기술은 모델 전체를 활성화하지 않고 필요한 부분만 선택적으로 사용해 계산 효율성을 극대화하는 차세대 기술로, 디노티시아의 이번 성과는 국내 기업이 선진 기술 도입과 자체 개발을 통해 경쟁력을 확보할 수 있음을 보여준 사례입니다.

▶[전문가 진단] 한 대학교 AI 연구소 교수는 "30B 규모의 모델들이 보여주는 성능은 매우 고무적이다"며 "특히 MoE와 같은 효율화 기술은 거대 모델의 한계를 극복하고 실제 비즈니스 환경에서의 활용도를 높일 수 있는 핵심 열쇠가 될 것"이라고 평가했습니다.


◆자체 개발 모델의 도전과 성과

4위부터는 LLM의 핵심인 '제로(Zero)부터 시작하는 자체 개발' 모델들이 등장하며 기술적 자립도를 보여주었습니다.

이 부문에서 가장 눈에 띄는 성과를 낸 것은 스타트업 트릴리온랩스입니다. 트릴리온랩스가 자체 개발한 Tri-21B 모델은 210억 개의 파라미터 규모임에도 불구하고 자체 개발 모델 중 최고 순위인 종합 4위를 차지하는 쾌거를 이뤘습니다.

이는 막대한 자본력 없이도 뛰어난 기술력과 알고리즘으로 대기업과 경쟁할 수 있다는 가능성을 제시한 것으로, 국내 AI 스타트업 생태계에 큰 활력을 불어넣었습니다.
그 뒤를 이어 SK텔레콤의 자체 개발 모델 기반인 A.X-3.1 34B가 5위에 올랐습니다.

이는 SK텔레콤이 초대형 모델과 자체 개발 모델, 두 가지 노선을 모두 추구하며 기술 포트폴리오를 다각화하고 있음을 보여줍니다.

◆기존 강자들의 변화와 신규 공개 모델의 등장

LGAI의 엑사원 모델은 흥미로운 결과를 보여주었습니다. 대부분의 기술 벤치마크에서 높은 점수를 기록한 차세대 모델인 엑사원 4.0 32B보다, 기존 모델인 엑사원 3.5 32B가 실사용 환경을 중점으로 평가하는 이 리더보드에서 더 좋은 성적을 거두며 6위를 기록했습니다.

이는 단순히 기술적 수치를 높이는 것을 넘어, 실제 사용자가 체감하는 성능과 안정성을 최적화하는 것의 중요성을 시사합니다. 즉, 최신 기술만이 최고의 사용자 경험을 보장하는 것은 아니라는 점을 보여주는 중요한 사례입니다.

▶[관련 사례] 글로벌 기술 기업들 역시 비슷한 경험을 합니다. 어떤 모델은 이론적 성능은 뛰어나지만 답변 생성 속도가 느리거나, 특정 질문에 대해 지나치게 조심스러운 답변을 내놓아 사용자 만족도가 떨어지기도 합니다.

리더보드의 이러한 평가는 기술 개발 방향이 실제 가치 창출로 이어지도록 하는 중요한 가이드 역할을 합니다.

7위와 8위에는 각각 디노티시아가 이번에 완전 공개한 DNA 2.0 14B 모델과 네이버의 하이퍼클로바X SEED Think 14B 모델이 이름을 올렸습니다. 두 모델 모두 140억 개의 파라미터를 가진 비교적 접근성 좋은 규모임에도 불구하고 상위권에 진입하며 우수한 성능을 입증했습니다.

특히 디노티시아가 30B 모델에 이어 14B 모델까지 공개하며 다양한 규모의 모델 라인업을 갖추고 시장에 적극적으로 참여하고 있음을 보여주었습니다.

마지막으로 KT의 믿음 2.0 Base 12B 모델이 9위를 기록하며 국내 주요 통신사들이 모두 LLM 시장에 참여하고 있음을 확인시켜 주었습니다.

◆결론: 다원화되는 국내 LLM 생태계의 미래

종합적으로, 현재 국내 LLM 시장은 SK텔레콤의 초대형 모델이 선두를 달리면서도, 업스테이지와 디노티시아 같은 전문 기업들이 효율적인 기술력으로 그 뒤를 바짝 추격하는 다원화된 구도를 형성하고 있습니다.

특히 트릴리온랩스와 같은 스타트업의 자체 개발 모델이 좋은 성과를 내는 것은 국내 AI 생태계가 건강하게 성장하고 있음을 의미합니다.

이러한 경쟁은 단순히 순위 가리기를 넘어, 더 나은 기술과 더 높은 효율, 그리고 궁극적으로는 사용자에게 더 큰 가치를 제공하기 위한 긍정적인 자극제가 될 것입니다.

각 모델의 상세한 성능과 평가 항목별 점수는 누구나 무료로 확인할 수 있는 리더보드 사이트에서 확인할 수 있으니, 관심 있는 분들은 직접 참고하시기 바랍니다.

국내 LLM 기술의 경쟁력은 이제 시작에 불과하며, 앞으로 더욱 흥미로운 발전이 기대됩니다.