정부 빅데이터 플랫폼 21개 가운데 선연계 7개와 신규 6개를 시작으로, 원-윈도우와의 연계를 전면 확장한다. 핵심은 카탈로그 기반 전환과 메타데이터–데이터 정합성 회복, 그리고 API 연계 개발 지원으로 요약된다. 미연계 분야까지 카탈로깅을 적용해 이용자 관점의 탐색·큐레이션 품질을 끌어올리겠다는 구상이다.
◆ 추진 범위와 대상
사업은 선연계 7개와 신규 6개 플랫폼을 1차 적용 대상으로 삼고, 잔여 미연계 분야로 감염병, 농식품, 디지털산업혁신, 라이프로그, 문화, 부동산, 소방안전, 스마트치안, 스마트팜, 지역경제, 통신, 해양수산, 헬스케어 등을 순차 편입한다. 플랫폼별 카탈로그 성숙도와 데이터 접근성, 보안 요건을 사전 진단해 단계적 전환 일정을 확정한다.
◆ 전환 절차: 현황분석에서 카탈로그 보완까지
초기에는 데이터 현황과 흐름을 매핑하고, 품질지표를 정의한다. 이어 메타데이터 RDF 준수율, 필수 항목 누락, 값 도메인 일탈 등을 진단하고 정제·가공을 병행한다. 마지막으로 카탈로그 항목을 도출·보완해 원-윈도우 관점의 탐색성과 설명력을 강화한다. 이 과정에서 데이터 상품 묶음, 사용 제한·권한, 라이선스, 업데이트 주기 등 서비스 필수 메타 항목을 일괄 반영한다.
◆ 정합성 회복: 메타데이터–데이터 불일치 정제
플랫폼 제공 정보 가운데 원천데이터와 메타데이터가 엇갈리는 항목을 집중 정비한다. 대표적으로 형식 불일치, 단위 표기 혼재, 참조코드 미매핑, 시점·버전 충돌 등이다. 정제 절차는 자동 검증 규칙 기반의 1차 탐지, 샘플링 검수, 소스 시스템 보정 합의, 카탈로그 재생성 순으로 진행한다. 검증 도구와 규칙은 재사용 가능하도록 표준화한다.
◆ 미연계 분야: 카탈로깅 선적용
빅데이터 플랫폼에서 제공하지 않는 데이터라도 이용 수요가 높은 자산은 우선순위로 카탈로깅을 적용한다. 특히 현장 데이터, 반정형 로그, 문서형 리포지토리 등 비정형 자산도 식별자, 생성 주체, 형식, 접근권한, 민감도 등 최소 코어 스키마를 맞춰 원-윈도우에 노출 가능한 형태로 정리한다.
◆ 메타데이터 필수 보완 항목 정의
원-윈도우와의 연계를 위해 기존 플랫폼에 없는 카탈로그명, 카탈로그 설명, 데이터 상품 구분, 버전·개정이력, 데이터 생산·갱신 주기, 품질등급, 라이선스, 연락 창구, 표준 분류체계 매핑을 기본 필수로 편성한다. 서비스 화면의 큐레이션 품질을 위해 요약 설명, 대표 변수, 샘플 시각화 썸네일, 추천 활용사례 등 가이드형 속성도 함께 설계한다.
◆ 카탈로깅 기준과 운영체계
카탈로그 작성은 표준 식별자 부여, 참조 데이터 일원화, 값 도메인 사전 관리, 버전과 유효기간 명시, 변경관리 로그 기록을 원칙으로 한다. 데이터 수명주기 전 과정에서 생성–수정–폐기의 메타데이터 동기화를 자동화해 ‘카탈로그는 항상 최신’이라는 신뢰를 확보한다. 민감정보는 비식별·가명처리와 접근통제 등 안전장치를 전제로 공개 범위를 정한다.
◆ API 연계 개발 지원과 보안
원-윈도우와 데이터 플랫폼 간 API 연계는 엔드포인트 표준화, 응답 스키마 명세, 페이징·필터 규약, 장애 코드 일관성, 스루풋 보장을 기본으로 한다. 필요 시 API 서버 구축, DB 쿼리 최적화, 데이터 구조 재설계, API 키 발급·검증 체계 마련, 접근 로그·감사 추적, 레이트리밋, 서킷브레이커 등 운영 안정화 기능을 함께 지원한다. 큐레이션 정보 표출에는 메타데이터 경량 캐시, 사전 렌더링, 샘플데이터 제공을 적용한다.
◆ 이용자 경험을 위한 큐레이션 강화
검색·탐색 품질 향상을 위해 데이터 상품을 주제·업무 시나리오 단위로 묶고, 관련 데이터 추천, 유사 상품, 신뢰도 뱃지, 최신 업데이트 알림 등 이용자 중심 신호를 제공한다. 필수 변수 미리보기와 샘플 호출을 통해 연계 전 검토 비용을 줄인다.
◆ 품질·보안·운영 지표 예시
품질 측정은 RDF 준수율, 메타데이터 완전성, 참조 무결성, 중복률, 최신성, 기술부채 건수로 관리한다. 보안은 접근 실패 알림, 인증 우회 차단율, 민감정보 검출 제로 건수 등으로 본다. 운영은 API 가용성, 평균 응답시간, 오류율, 큐레이션 클릭률, 데이터 상품 재방문율 등 사용자 행동 지표를 병행 추적한다.
◆ 전문가 진단
데이터 거버넌스 전문가들은 플랫폼별 데이터 스키마 차이를 ‘카탈로그 표준의 적응형 맵핑’으로 흡수하는 접근이 유효하다고 본다. 특히 자동 검증 규칙을 표준화하면 초기 구축 이후의 유지보수 비용을 크게 줄일 수 있다는 지적이다. 학계에서는 검증 규칙을 공개된 제약 사양으로 관리하고, 변경 시 회귀 검증을 자동화하는 것이 데이터 신뢰 확보의 관건이라고 조언한다. 현장 운영 경험이 있는 컨설턴트들은 샘플데이터의 법적·윤리적 안전장치와 성능 튜닝을 동시에 만족시키는 ‘안전한 미리보기’가 원-윈도우 성공 체감의 첫 단추라고 평가했다.
◆ 적용 사례 예시
감염병 분야에서 시군구 코드 체계가 플랫폼별로 상이해 발생 지역 통계가 누락되던 문제를, 표준 참조코드 매핑과 메타데이터 보강으로 해결한 뒤 원-윈도우에서 일관된 지도로 표출한 사례가 대표적이다. 부동산 분야에서는 면적 단위 혼재를 정규화하고, 거래 시점 기준일을 명시해 시계열 분석의 왜곡을 줄였다. 통신 분야의 로그형 데이터는 샘플링 규약을 명시해 과도한 호출을 방지하고도 탐색성을 확보했다.
◆ 리스크와 보완책
가장 큰 리스크는 원천 시스템 변경이 카탈로그에 누락 반영되는 ‘음영 변경’과 민감정보 유입이다. 이를 막기 위해 스키마 드리프트 감지, 변경 승인 워크플로, 자동 알림을 운영하고, 민감정보 상시 스캐닝과 가명처리 정책을 기본 내재화한다. 성능 측면에서는 캐시 계층과 비동기 파이프라인으로 고동시 트래픽을 흡수한다.
◆ 기대 효과
카탈로그 중심 전환과 정합성 회복, 표준화된 API 운영은 원-윈도우의 검색·탐색 품질을 끌어올리고, 데이터 상품의 재사용률을 높인다. 나아가 기관 간 데이터 연계 비용을 줄이고, 신규 서비스의 시장 진입 시간을 단축하는 선순환이 기대된다.