/AI Chasm Catalyst

AI 시대를 맞아 공공데이터 정책의 무게중심이 ‘얼마나 많이 여는가’에서 ‘얼마나 바로 쓰이게 제공하는가’로 이동하고 있다. 영국은 정부 웹사이트·개방데이터의 AI 활용도를 실험으로 점검하고, 국가데이터라이브러리(NDL)와 디지털·AI 로드맵을 예고하며 ‘정부가 AI의 핵심 데이터 공급자’로 나서는 구상에 속도를 내고 있다. 하지만 구체 설계와 운영원칙은 여전히 과제로 남아 있다.

◆ 정부 웹사이트는 LLM의 핵심 학습원… data.gov.uk 통계는 ‘거의 미반영’

ODI(오픈데이터연구소)는 영국 정부 웹사이트와 data.gov.uk가 LLM 성능에 미치는 영향을 ‘언러닝/절제(ablation) 실험’으로 평가했다. 결과는 대비적이다. 정부 웹페이지를 학습집합에서 제외하면 복지·수당 등 공공서비스 질의 정확도가 평균 42.6% 악화됐다. 반면 data.gov.uk의 통계는 주요 LLM 지식에서 거의 회상되지 않는 것으로 나타났다. ODI는 “정부 웹사이트는 자연어 지식의 1차 출처로, 데이터 포털 통계는 ‘웹 크롤러가 읽을 수 있는 형태’로 재노출해야 한다”고 권고했다.

◆ ‘국가데이터라이브러리’와 ‘AI 로드맵’ 예고… 세부 설계는 “추후 공지”

영국 정부는 2025년 1월 ‘AI Opportunities Action Plan’ 정부 응답에서 NDL을 통해 공공·민간 데이터 자산을 AI 연구·혁신에 쓰이게 하겠다고 밝혔다. 이어 같은 달 발표한 디지털 정부 청사진은 2025년 여름 ‘Government Digital & AI Roadmap’ 공개를 예고했다. 다만 NDL의 데이터 거버넌스, 접근 등급, 저작권·라이선스·크롤링 정책, 민관 역할분담 등 핵심 논점은 “추후 상세 공개”로 남아 있다.

◆ NHS·ONS·NUAR 사례가 보여준 ‘목적 기반 접근’

보건의료 분야에서는 2023년 말 발주된 NHS 연합 데이터 플랫폼(FDP)이 7년간 3억3천만 파운드 규모로 각 신탁·통합케어시스템의 운영·분석을 뒷받침한다. 개인정보 보호 논란이 뒤따르지만, 보건 데이터의 통합·분석 인프라라는 점에서 ‘목적 기반 데이터 접근’의 대표 사례다. 통계 분야의 ONS는 보안연구서비스(SRS)라는 신뢰연구환경(TRE)을 통해 비식별화 데이터에 제한적 접근을 제공한다. 지하 인프라 지도화 사업 NUAR는 2025년 말 전면 운영을 목표로, 공공·민간 자산 데이터를 연계해 사회적 비용 절감 효과를 노린다.

◆ ODI·학계의 ‘AI-ready 공공데이터’ 설계안

ODI와 학계는 ‘AI-ready 데이터’로의 전환을 촉구한다. 핵심은 첫째, 모델·크롤러 친화적 메타데이터(예: 크루아상/Croissant) 부착과 핵심 지표의 웹 페이지 재노출, 둘째, 표준화·정규화·상호연계 완료본 제공, 셋째, 정부 웹사이트·포털의 크롤링 정책 재정비(합법·안전 범위에서의 수집 허용), 넷째, 벤치마크와 평가 프로토콜 구축이다. 이는 데이터 생산–공개–활용 전주기에 걸친 ‘공급자 책임’ 강화를 전제로 한다.

◆ 전문가 진단

영국 KCL 정책연구진은 “NDL은 안전장치와 공적 이익을 전제로 공공데이터 접근을 체계화하는 데이터 기관”이라며, AI 연구·공공서비스 혁신의 기반시설로서 역할을 강조했다. ODI 역시 NDL을 ‘AI-ready’ 원칙으로 설계해 민간의 전처리 비용을 줄이고, 공공데이터의 재현성과 신뢰도를 끌어올려야 한다고 권고한다.

◆ 한국 NDL 논의에 주는 시사점

첫째, ‘개방’에서 ‘즉시 활용’으로 정책 목표를 전환해야 한다. 원시 데이터 업로드가 끝이 아니라, 표준 스키마·코드북·품질지표·버전관리까지 갖춘 데이터 제품으로 제공해야 한다. 둘째, 정부가 데이터 생애주기 전 과정을 경험·관리하는 구조가 필요하다. 데이터 설계–정제–연계–검증–배포–사후평가까지 공공 책임 범위에 포함시켜야 한다. 셋째, 목적 기반 허가형 접근 인프라를 확충해야 한다. 보건·에너지·교통 등 민감 분야는 TRE/SDE 모델로 단계적 공개와 안전한 결합·분석을 지원할 수 있다. 넷째, 웹 크롤링·LLM 학습 재이용 허용 범위를 라이선스와 로봇배제정책에서 명확히 규정해야 한다. 다섯째, 공공데이터 벤치마크와 레퍼런스 파인튜닝 세트를 정부가 직접 조달·배포하여 민간의 중복 전처리 비용과 결과 편차를 줄일 필요가 있다. 이러한 방향은 영국의 NDL 로드맵과 실증 과제(NHS FDP, ONS SRS, NUAR)에서 확인되는 흐름과 궤를 같이한다.

◆ 남은 과제

영국은 여전히 세부 설계를 발표해야 한다. 개인정보 비식별화·재식별 위험 관리, 공정 이용과 저작권 경합, 공공데이터의 상업적 재이용 조건, 크롤링·스크래핑 허용 범위 등 쟁점이 첩첩하다. 반면 ‘지금 당장’ 할 수 있는 일도 있다. 핵심 통계를 웹페이지로 재노출하고, 크롤러 친화 메타데이터를 붙이며, 정부 사이트의 로봇 배제정책을 합리화하는 등 즉효성 조치다. 한국 역시 동일한 과제를 안고 있다.

결론

AI 시대의 공공데이터 정책은 양적 개방 경쟁을 넘어 ‘AI-ready 데이터’ 공급역량으로 판가름난다. 정부가 데이터 생애주기를 끝까지 책임지고, 허가형 접근 인프라와 표준·품질·거버넌스를 섬세히 깔아야 민간의 전처리 비용을 줄이고 신뢰 가능한 활용을 보장할 수 있다. 영국의 NDL과 로드맵은 방향을 제시했지만, 구체 설계가 뒷받침될 때 비로소 ‘정부=AI 데이터 공급자’라는 명제가 실체를 갖게 된다.