/AI Chasm Catalyst

업계가 2024년 570억 달러를 대형 언어모델(LLM) 인프라에 투자한 가운데, 56억 달러 규모의 API 서비스 시장과 10배의 격차를 보이는 상황에서 NVIDIA 연구진이 파격적인 주장을 제기했다.

지난 6월 2일 발표된 “Small Language Models are the Future of Agentic AI” 논문에서 연구팀은 100억 개 이하의 매개변수를 가진 작은 언어모델(SLM)이 충분히 강력하고, 본질적으로 더 적합하며, 경제적으로 더 효율적이어서 에이전트 AI 시스템의 미래를 이끌 것이라고 주장했다.

경제성과 효율성이 만드는 게임 체인저

100억 개 미만의 매개변수를 가진 소형 모델이 700억 개 이상의 매개변수를 가진 대형 모델에 현재 할당되는 AI 에이전트 작업의 60-80%를 효과적으로 처리할 수 있다는 증거가 제시되었다.

NVIDIA 응용 딥러닝 연구 부사장 브라이언 카탄자로는 “우리는 가지치기(pruning)와 증류(distillation)라는 두 가지 AI 최적화 방법을 결합했다”며 “Mistral NeMo의 120억 매개변수를 80억 개로 축소하고 정확도를 향상시켜 Mistral-NeMo-Minitron 8B가 더 낮은 계산 비용으로 원래 모델과 비교할 만한 정확도를 제공한다”고 설명했다.

특화된 작업에서 뛰어난 성능 증명

2024년 9월까지 Phi 계열, 특히 Phi-3-mini가 데이터 엔지니어링과 튜닝 기법 덕분에 최고의 정확도를 달성했다는 연구 결과가 나왔다. 더 큰 모델이 일반적으로 더 나은 성능을 보이지만, Qwen-21.5B와 같은 소형 모델이 특정 작업에서 뛰어난 성과를 보여주고 있다.

마이크로소프트의 Phi-3 연구팀은 “SLM은 클라우드에 연결되지 않고 ‘엣지’에서 작동하는 스마트폰과 기타 모바일 기기에 더 우수한 기능을 배치할 수 있는 기회에 특히 흥미를 느끼고 있다”며 “기기 내에서 데이터를 유지함으로써 사용자는 지연 시간을 최소화하고 개인정보 보호를 극대화할 수 있다”고 강조했다.

비용 효율성에서 압도적 우위

GPT-4를 LLM 예시로 살펴보면, 2024년 6월 기준 API를 통한 접근 비용이 입력 토큰 1,000개당 0.03달러, 출력 토큰 1,000개당 0.06달러로 요청당 총 0.09달러에 달한다. 300명의 직원이 각각 하루에 1,000개 크기의 소규모 요청을 5개씩만 해도 월간 규모로는 약 2,835달러가 소요된다.

운영 비용이 10-30배 낮다는 SLM의 경제적 장점은 특히 중소기업과 스타트업에게 AI 접근성을 크게 높이고 있다. 소형 모델은 일반적으로 더 적은 계산 능력을 필요로 하여 비용을 절감하지만, 더 복잡한 작업에는 적합하지 않을 수 있다는 한계도 인정하고 있다.

에이전트 시스템 구조의 근본적 변화

AI 에이전트 시스템은 일반적으로 복잡한 목표를 모듈식 하위 작업으로 분해하며, 각각은 특화되거나 미세 조정된 SLM으로 안정적으로 처리될 수 있다고 연구진은 설명한다.

에이전트적 상호작용은 미래 개선을 위한 데이터 수집의 자연스러운 경로가 되며, 이는 SLM이 지속적으로 특정 작업에서 성능을 개선할 수 있는 피드백 루프를 만든다는 것이다.

실무진과 학계의 엇갈린 반응

금융 기관과 기업들에게 개인식별정보(PII) 데이터 처리와 은행 및 영업 기밀로 인해 제3자 SaaS LLM 사용이 불가능한 경우가 많아 에이전트 워크플로우에서 SLM을 사용하면 에이전트 워크플로우의 폭넓은 채택을 촉진하는 데 도움이 될 것이라는 현장의 목소리가 나오고 있다.

한편 일부 전문가들은 추론 LLM이 에이전트 워크플로우의 진정한 대안이라고 주장하는 비전가와 때로는 실무자들을 점점 더 자주 보고 있다며 신중한 접근을 요구하고 있다.

하이브리드 모델이 현실적 해법

LLM과 SLM의 강점을 모두 활용하면 매우 효율적이고 확장 가능하며 정확한 AI 기반 솔루션을 구현할 수 있다는 하이브리드 접근법이 주목받고 있다.

금융 기관들은 LLM이 규제 문서나 시장 보고서 요약과 같은 유연성과 적응성이 필요한 광범위한 애플리케이션에 사용되고, SLM이 위험 평가나 사기 탐지 같은 더 집중적이고 도메인별 애플리케이션에 배포되는 하이브리드 AI 접근법을 구현할 수 있다고 전문가들은 제안한다.

시장 전망과 도전 과제

글로벌 소형 언어 모델 시장 규모는 2024년 7억 4천만 달러에서 2025년 9억 3천만 달러, 2032년에는 54억 5천만 달러로 예측 기간 동안 연평균 28.7% 성장할 것으로 전망된다.

SLM 채택의 잠재적 장벽으로는 중앙화된 대형 언어모델(LLM) 인프라에 대한 높은 초기 비용, SLM 개발에서 일반적인 벤치마크 사용, 그리고 화제 부족이 지적되고 있다.

지속가능한 AI의 새로운 패러다임

우리의 입장은 가치 선언문으로 공식화되어 LLM에서 SLM으로의 부분적 전환이라도 AI 에이전트 산업에 미칠 운영적, 경제적 영향의 중요성을 강조한다고 연구진은 밝혔다.

우리는 AI 자원의 효과적 사용에 대한 논의를 자극하고 현재 AI 비용을 낮추려는 노력을 발전시키기를 희망한다는 것이 이번 연구의 궁극적 목표다.

이번 NVIDIA 연구는 AI 산업이 단순히 ‘더 큰 것이 더 좋다’는 패러다임에서 벗어나 효율성과 지속가능성을 중시하는 새로운 전환점을 맞고 있음을 시사한다. SLM의 부상은 AI 기술을 더욱 민주화하고 접근 가능하게 만들면서도, 특정 작업에서는 LLM에 필적하는 성능을 제공할 수 있다는 가능성을 보여주고 있다.

*이 기사는 NVIDIA Research의 “Small Language Models are the Future of Agentic AI” 논문과 관련 업계 보고서를 바탕으로 작성되었습니다.*