인간 합격률 30% 안팎의 난도 높은 국가기술자격시험을 GPT-4o가 파인튜닝 없이 80점대 평균으로 연속 통과했다. 대형 건물에 의무 배치되는 기계설비 유지관리자의 전문 영역에서 AI가 자격 검증을 통과한 것은 처음으로, 건물 에너지 관리 업무의 자동화와 직업 재편 논의에 불을 붙이고 있다.

대형 건물에 의무 배치되는 기계설비 유지관리자의 핵심 자격시험에서 GPT-4o가 평균 80점대 성적으로 5회 연속 합격선을 넘겼다.

인간 합격률이 대체로 30% 안팎인 난도에서 도출된 결과여서, 시설 운영·에너지 최적화의 업무 구조가 AI 중심으로 재편될 가능성을 키웠다는 평가다.

◆ 무엇이 입증됐나: ‘지식+계산’ 복합형 시험에서 안정적 80점대

평가 대상은 에너지관리기사와 공조냉동기계기사 필기였다. 두 시험은 과목당 20문항(4지선다), 과목별 40점 미만 과락, 전과목 평균 60점 이상 합격 기준을 적용한다.

GPT-4o는 에너지관리기사에서 평균 80.6점, 공조냉동기계기사에서 81.25점을 기록해 5회 반복 시험을 모두 통과했다. 계산형·비계산형 문항의 정확도는 큰 차이가 없었고, 응답 일관성은 약 97~98% 수준으로 측정됐다.

◆ 시험 자체의 난도: “인간 합격률 30% 내외”

동일한 문제군에서 인간 응시자의 최근 합격률은 에너지관리기사 약 29%, 공조냉동기계기사 약 31%로 제시된다. 이 구간의 난이도에서 80점대 평균은 통계적으로 의미 있는 성취로 평가됐다.

◆ 방법론의 특징: 파인튜닝 없이, 기본 모델로

연구진은 파인튜닝이나 사전 지식 주입 없이 GPT-4o API를 사용해 5회 독립 시도(온도값 0.2)로 응답을 수집했다. 도해를 포함한 일부 시각 정보도 모델이 직접 해석하도록 구성해, 실제 시험 형태에 가깝게 평가했다.

고급 추론은 ‘추론 최적화 모델’을 쓰면 개선됐고, 법령 문항은 검색·RAG를 결합할 때 정확도가 유의하게 올라갔다고 분석했다. 반면 도면·그래프 해석력은 여전히 제한으로 남았다.


◆ 현장성의 쟁점: “배치 의무 직종, 자동화 경로는 두 축”

기계설비법 시행령은 일정 규모 이상 건물(예: 연면적 1만㎡ 초과 또는 500세대 초과 공동주택)에 ‘기계설비 유지관리자’ 상시 배치를 의무화한다. 논문은 국내 약 4만 동 이상이 대상이고, 인력 고령화·지역 편차로 수급 불균형이 크다고 짚었다.

이 구조에서 LLM의 필기 합격 수준 지식이 확인된 이상, 자동화의 경로는

① 설비·BAS/BMS·계측기·에너지 요금계약 등 운영 데이터를 수집·제어까지 이어지는 파이프라인을 구축하고,

② 원격·무인 운전에 관한 책임·안전·감독 기준을 법·제도적으로 재설계하는 두 축으로 수렴한다.

◆ 업무 대체의 범위: 어디까지가 ‘AI’, 무엇이 ‘인간’인가

AI가 대체하기 쉬운 업무

규정·매뉴얼 기반 의사결정, 표준 운전곡선 유지, 에너지 비용 최소화 스케줄링, 점검 이력 관리, 경보 상관분석과 원인 가설 생성.
AI가 아직 취약한 업무

안전·법정 점검에서의 현장 육안 진단, 진동·소음·냄새 등 비정형 감각 신호 통합, 도면·배관 현장 변형(개보수 이력) 반영, 법령·행정해석이 필요한 분쟁 대응. 논문도 시각 도해 해석과 법령 문항에서의 오류 민감도를 한계로 명시했다.

◆ 전문가 진단: “지식 검증은 통과, 제어·책임·안전이 다음 과제”

연구는 건물 기계설비 유지관리 영역에 적용 가능한 ‘기초 역량’을 GPT-4o가 확보했음을 보였지만, 산업 적용에는 세 가지 안전판이 요구된다.

첫째, 데이터-제어 통합(현장 센서→BAS/BEMS→제어기)을 통한 루프 운영 검증.

둘째, RAG·툴 사용을 포함한 합성적 추론 체계(법령·설비별 매뉴얼, 유지관리 역사 데이터베이스).

셋째, 책임주체·감리·사고 보고 기준을 포함한 제도 정합성이다. 연구진 역시 “유지관리 소프트웨어와의 통합”을 후속과제로 제시했다.


◆ 산업 파장: 전화교환원처럼 사라질까, 아니면 ‘슈퍼바이저’로 진화할까

단기적으로는 ‘AI 조수(Co-pilot)’가 에너지 절감 KPI와 법정 점검 준비를 보조하며, 야간·주말 감시 업무를 상당 부분 치환할 가능성이 크다. 중기적으로는 소수 인력이 다수 건물을 원격 관리하는 ‘허브-스포크’ 운영으로 전환될 여지가 있다.

반면 법정 안전점검, 위험 작업(Permit), 설비 긴급복구는 사람의 현장 개입이 불가피하다. 결과적으로 직군 소멸보다는 역할 재편(데이터·제어 슈퍼바이저, 다시설 원격오퍼레이터, AI 안전감사 등) 시나리오가 확률이 높다.


결론

이번 결과는 “지식 검증을 통과한 AI”가 법정 배치 의무 직종의 업무를 보조·대체할 토대를 갖췄음을 보여준다. 남은 것은 현장 제어까지 닿는 데이터 파이프라인과 안전·책임 체계를 반영한 제도 정비다.

이 두 축이 갖춰지는 순간, 건물 에너지 관리의 기본값은 사람에서 AI 에이전트로 이동하기 시작할 것이다.

◆ 실무 적용 체크리스트(요약)

데이터/제어: 계측 포인트 표준화(Tag, 단위, 샘플링), 제어명령 권한·롤백·감사 로그 설계.

품질·신뢰: RAG 코퍼스(법령·매뉴얼·선행조치 SOP), 이벤트 시뮬레이션과 샌드박스 A/B.

안전·책임: Fail-safe 설계, 인간 개입 임계치 정의, 사고 시 책임·보험 약관 정합성.

인력전환: 자격·교육 기준의 ‘AI-운영’ 모듈화(법정교육 내 AI 활용 과목 추가), 현장 실습+원격 관제 훈련.

◆ 한계와 다음 단계

이번 결과는 필기 기출 중심의 오프라인 코퍼스에서 도출된 ‘지식 역량’ 검증이다. 실기·현장 작업 절차, 설비 고장 진단의 멀티모달 추론, 도면/그래프 해석은 추가 개선이 필요하다.

논문도 추론 특화 모델과 RAG 결합의 유효성을 확인했으나, 도해 인식력은 여전히 기술 발전이 요구된다고 명시했다.

부연 설명

에너지관리기사: 연소공학·열역학·계측방법·열설비 재료 및 법규·열설비 설계의 다섯 과목으로 구성되며, 과목당 20문항, 과락 40점, 평균 60점 기준이다.

공조냉동기계기사: 에너지관리, 공조·냉동 설계, 시운전·안전관리, 유지보수·시공관리 4과목, 동일한 합격 기준을 적용한다.

참고 근거

GPT-4o 성적·일관성·제한점, 인간 합격률(29%/31%): 과학저널 연구 결과.

시험 체계·합격 기준: Q-Net 공식 안내.

배치 의무·면적 기준: 기계설비법 시행령 및 연구 서술.