/AI Chasm Catalyst

중국 AI 스타트업 딥시크가 차세대 대형언어모델 ‘DeepSeek V3.1’을 발표했다.

이 모델은 한 모델에서 두 가지 추론 방식을 전환하는 하이브리드 구조를 채택해, 일반 대화형 작업은 비-싱킹 모드로 빠르게 처리하고, 복잡한 논리·수학·코딩 문제는 싱킹 모드에서 단계적 추론으로 풀도록 설계됐다. 회사는 에이전트 역량과 처리 속도도 함께 강화됐다고 밝혔다.

◆ 두 가지 모드, 하나의 모델

DeepSeek V3.1은 비-싱킹 모드와 싱킹 모드를 지원한다. 싱킹 모드는 사전 체인-오브-소트(Chain of Thought)를 생성해 정답을 도출하는 방식이며, 비-싱킹은 즉시 응답을 반환한다. 사용자 인터페이스에서는 전용 토글(DeepThink 버튼)로, API에서는 채팅 템플릿 변경만으로 전환한다.

◆ 성능과 사양의 변화

딥시크는 V3.1-Think가 이전 세대의 R1-0528 대비 같은 품질에 더 빠르게 도달한다고 주장한다. 공개된 지표에 따르면 MMLU-Redux 93.7퍼센트, MMLU-Pro 84.8퍼센트, 코드포스 레이팅 2091을 기록했으며, 최대 128K 토큰 컨텍스트를 지원한다. 모델 규모는 약 670B급 MoE로 알려졌지만, 출처별로 수치가 다소 엇갈린다.

◆ 에이전트와 툴 사용 강화

포스트-트레이닝 최적화로 툴 호출과 다단계 에이전트 태스크 성능이 강화됐다. 자체 안내 문서와 운영 가이드들은 복잡한 도구 연동, 계획 수립, 다중 단계 실행에서의 안정성이 개선됐다고 설명한다.

◆ 배포와 가격 정책

딥시크는 V3.1 공개와 함께 API 이용 가격 조정 계획을 예고했다. 한편 V3.1-Base 가중치가 공개돼 자가 호스팅이 가능하며, 상용 환경 배포 튜토리얼도 다수 등장했다.

◆ 경쟁 구도에서의 위치

싱킹 모드는 오픈AI의 고도 추론형 모델(o1)과 문제 접근 방식이 유사하며, 딥시크의 R1 계열에서 검증된 추론 기법을 V3.1에 증류해 도입했다는 점이 특징이다. 업계 동향을 정리한 기술 레터는 V3.1이 생각 모드와 비-생각 모드를 채팅 템플릿만으로 바꿔 쓰는 점을 ‘하이브리드 리즈닝’으로 정의한다.

◆ 도입 시나리오 예시

내부 지식 검색·고객상담 챗봇처럼 응답 지연에 민감하고 논리 깊이가 과하지 않은 서비스는 비-싱킹 모드가 적합하다. 반대로 복잡한 정책 질의 응답, 수식·코드 리팩토링, 멀티툴 연계를 통한 업무 자동화 플로우는 싱킹 모드에서 정확도가 높다. 전환은 운영 지표에 따라 동적으로 조합할 수 있다.

◆ 전문가 진단

국내외 연구·개발 현장에서 가장 큰 의미는 “단일 모델-이중 모드”가 운영 복잡도를 줄인다는 점이다. 동일한 파이프라인에서 지연 시간과 품질을 상황별로 조정하면, 멀티-모델 라우팅보다 시스템 관리가 단순해진다. 다만 싱킹 모드는 토큰 소비와 비용이 증가하기 때문에, 작업 분류와 모드 라우팅 기준을 명확히 정의해야 총소유비용을 억제할 수 있다. 최신 보고서는 상위권 모델 간 성능 격차가 축소되는 가운데, 분배·유통력과 인프라 비용이 실제 채택을 좌우한다고 지적한다.

◆ 학계 관점과 유의점

학계에서는 체인-오브-소트 노출이 학습 편향을 유발하거나 프롬프트 유출 위험을 키울 수 있다는 점을 상기시킨다. 따라서 싱킹 내용은 로깅·마스킹 정책을 별도로 적용하고, 자동화된 평가 루프에선 정답만을 수집해 프라이버시 리스크를 줄이는 설계를 권장한다. 또한 자체 벤치마크는 일반화 가능성을 과대평가할 수 있으므로, 도메인별 테스트셋으로 교차 검증해야 한다.