/AI Chasm Catalyst
GPT-5 출시 된 첫 날, 한국어 기준의 LLM(대형 언어 모델) 리더보드에서 GPT-5가 거의 만점에 가까운 성능을 기록했다는 소식이 화제를 모았다.
이로 인해 구글 제미니 2.5 프로와 앤트로픽 클로드 오푸스 4.1에 이어, GPT-5 또한 최상위권 모델군(일명 ‘빅3’)에 합류했다는 평가도 나오고 있다.
2. GPT-5, 진짜일까?
현재까지 GPT-5에 대한 공식 발표는 아직 없다.
Horizon Beta에 대한 업계 내 추측은 있었지만, OpenRouter가 이를 명시적으로 “GPT-5 초기 버전”으로 공개 언급했다는 사실은 확인되지 않았다. (팩트 확인 실패)
OpenAI나 공신력 있는 연구 기관의 공식 자료 또는 논문이 없는 상태에서는 해당 주장을 “소문 수준”으로 분류하는 것이 적절하다.
3. 벤치마크 결과의 의미와 한계
해당 리더보드는 대부분 영어 중심 벤치마크로 설계되어, 실제 한국어 사용 환경을 충분히 반영하지 못할 수 있다. (사이트에 명시된 내용에도 “한국어 사용 환경 반영이 어렵다”는 안내가 있음)
단일 수치만으로 모델의 전반적 능력을 평가하기에는 제한적일 수 있다.
특히 언어 이해, 추론, 맥락 유지 등 다양한 항목을 포괄해 심층 평가할 수 있는 별도의 벤치마크가 필요하다.
4. 오픈소스 모델의 현재와 전망
DeepSeek, Q1, Kimi K2 등 이전에 주목받았던 오픈소스 LLM들은 아직 빅3 모델과 확연한 성능 차이를 보이고 있다.
이번 벤치마크에 따르면, gpt-oss와 GPT-5 nano의 성능이 동일한 수준으로 나타났다. 아키텍처가 유사하다면, 차이는 모델 크기일 가능성이 있다.
가설에 따르면, gpt-oss 및 GPT-5 nano는 약 120B(120억 매개변수) 수준, GPT-5 mini는 1T(1조 매개변수), GPT-5 정식 버전은 약 3T로 추정된다는 의견이 있으나, 이는 공식 발표 없이 단정할 수 없다.
5. 전문가 견해
“공식적인 논문이나 벤치마크 없이 GPT-5의 성능을 확정하는 것은 성급하다. 모델 크기나 브랜딩에 무게를 두기보다는, 실제 언어 이해 능력을 다면적으로 평가하는 체계가 필요합니다.”
– AI 연구기관 관계자
“한국어 기준 리더보드만으로 모델 성능의 전체 그림을 판단하기는 어렵습니다. 특히 한국어 특유의 문법 구조나 맥락 이해는 별도 벤치마크가 요구됩니다.”
– 자연어처리(NLP) 학계 전문가
6. 향후 관전 포인트
OpenAI의 공식 발표 여부와 자세한 기술 사양 확인
공개된 논문 또는 벤치마크 데이터가 있는지 여부
오픈소스 진영의 지속적 성능 개선 여부와 WBL 등 한국 모델의 추격 가능성
7. 결론
현재로서는 GPT-5가 “역대 최고 성능”이라는 주장은 검증되지 않은 상태다. Horizon Beta의 정체, gpt-oss와 GPT-5 nano의 유사성, 그리고 단일 벤치마크의 한계 등을 고려할 때, 해당 내용을 다룰 때는 신중하게 접근해야 한다. 그러나 기술 발전의 큰 흐름 속에서, 앞으로의 발표와 연구 결과는 분명 주목할 가치가 있다.