热点头条

政务行业大数据精细化治理与展望

发布日期 / 2022-06-21

政务行业大数据精细化治理与展望


前言

当今中国已经全面进入“大数据时代”。自十八届五中全会首次提出“国家大数据战略”以来,一系列政府文件、行业标准规范相继出台。大数据对政务工作的赋能也愈发明显。尤其是在疫情常态化后,更是加速了政务大数据的融合、分析,精准科学疫情防控提供了有力支撑。在实现这些效果之前,势必需要对海量数据实施精细化治理。


政务大数据的特点

大数据的特点包括海量、多源、异构、快速、价值密度不一、高价值应用等。其中,“海量”是指一个行业的数据量达到百亿至万亿条,存储规模达到PB级甚至ZB级。“多源”指来源地多、广、杂,政务大数据要分析一个复杂场景,通常需要集合多个政府部门、企业以及公开或非公开采集的数据,这对数据汇聚的完整性、实时性以及汇聚后的标准化提出了更高的要求。由于来源多,势必形成了“异构”特性,即多来源的数据格式不一、组成结构不一、统计维度不一、名称不一等,甚至还有大量缺项、错项、漏项及两两看似矛盾的问题存在,这就需要对数据进行大量的预处理。“快速”指需要保证数据的时效性从而快速分析赋能于业务场景,这里分为实时分析和离线分析。“价值密度不一、高价值应用”指大数据分析不同于“小数据”分析,汇聚的数据要求“全”,以应对不定性的场景,但不一定每条数据都在数据分析场景中用到,因此价值密度不能保证,但是正因为数据全,因此理论上可以分析各类高价值的场景。如全国十四亿人口的出行信息,大部分人的行程信息只有在被列入需要关注的对象时才用得到,但是要求随时可查可分析。亦或是在没有明确目标的情况下按某类规则进行碰撞,如寻找与某事件相关的人或车,这里要求数据完整无遗漏。


政务大数据治理流程

什么是数据治理?数据治理是对数据资产管理行使权力和控制的活动集合,其目的是将数据有序管理方便提取并提升数据的价值,本质是数据有序化和增值的过程。数据经过产生后,进入治理环节,其流程可粗略分为数据汇聚、数据接入、数据预处理、数据组织、数据治理,最终以数据服务的形式输出,另外加上周边的数据标准体系、数据安全体系、数据运营运维体系做支撑,从而构成完整的工程架构,如下图所示:


图 1 政务大数据工程治理总体内容

其中数据汇聚是指按照统一的标准规范对多源数据分别采集汇集到统一的大数据平台,并管理好数据最终下发或分享给同级或下级大数据平台,供其进一步治理的过程。主要可分为数据采集、数据汇集、数据共享、数据监管等环节,因此对应的大数据平台应该至少包含数据汇集管理、数据共享管理两方面能力。


数据接入是指按照之前定义的规则,将海量多源异构数据接入大数据平台,其中包括数据的探查、定义、读取、比对,其中数据探查指对来源数据的存储位置、提供方式、总量及更新情况、业务含义等进行多维度分析,以达到全面认识数据的目的,为进一步定义数据治理的策略提供依据。通过探查结果,结合不同业务需要,对数据治理各阶段的内容和方法进行动态定义。最终通过定义的规则进行数据读取,即数据搬运过程。大数据平台结合业务需要可包含数据通道管理、数据库适配、数据写入、数据日志记录、数据解密、数据解压等过程和能力。

数据预处理是指按照数据接入环节的定义,针对规模巨大、类型多项、高速流转、复杂多变、质量参差不齐、价值密度高低不一的特性的数据,以数据应用为导向,通过规范化处理,提升数据价值密度,服务于数据增值、应用。主要可包含数据的提取、清洗、关联、比对、标识、分发。其中数据提取指根据定义的规则,从源格式数据中提取出目的格式数据,如结构化数据提取与非结构化数据提取等。数据清洗,是数据的初步标准化的主要环节,类似传统的ETL过程,指根据定义规则进行垃圾数据的过滤、重复数据去重、格式转换以及最终处理结果的校验,生成满足标准和质量要求的标准化数据。数据关联是指按照定义的规则或算法,根据业务场景需要,对数据与数据之间进行关联,以更好的描述同类型实体之间关系以及不同类型实体之间的关联信息。数据比对是指按照规则对相似度较高的数据进行计算,方便命中验证目标数据或做相似度关联比较,如相同车辆比对、人脸比对、文本比对等。数据标识是指基于业务需要,对数据自身蕴含的特性进行显化,按照不同数据特性打上不同标签,并生成标签知识库的过程,如可标识数据属性、数据可信度、是否重点关注群体、是否与某事件关联等,此过程方便后期对数据筛选、快速检索、数据重组、业务上的定性有十分重要的作用。经过预处理的数据,通过分发方式进入各个不同的数据库中,形成大数据组织体系。

数据组织是指按照一定数据应用需求,按照数据定义的规范,对数据资源进行分维度、分类别的建库过程,以数据的不同维度的重构来快速赋能业务需求,主要组织维度可以效仿数据湖生成标准化库、按不同主题形成主题库、按共性场景对要素进行关联关系组织成资源库、按不同业务细分形成不同的业务库、按索引形成索引库,也可将数据处理、治理、管理过程中的规则、算法、模型、字典、特征等单独收集起来形成知识库。

数据治管理是指通过对标准化数据进一步进行治理、管理,使数据形成价值增值、资源透明、动态可管、安全可控、持续维护、生长迭代的过程。数据治管理按照实际需要,可以包括数据资源生命周期管理、数据运维、数据质量管理、数据模型管理、数据标签管理、数据安全分级、数据分类、数据资源目录形成及管理、数据血缘分析与管理等,最终做到数据流通、资产全息、数据迭代、价值提炼、安全使用、动态监管等目的。此部分为数据价值增值和安全管理的关键环节。

在大数据平台的设计思路中,数据只汇聚,不直接对外输出,那么数据可以以数据服务的形式对外赋能,数据的服务可以大致分为基础数据管理服务(如资源目录管理、数据分级管理、数据分类管理、数据鉴权、数据模型管理、数据标签管理等服务)、基础数据操作服务(如增、删、改、查、建表等)、数据基础应用服务(如查询检索、比对、订阅、数据分析、数据展示、数据推送等)等。通过定制各类服务,对外隔离原始数据,实现大数据中台对业务的直接赋能,既增加了政务大数据平台的高可用性,也保证了数据的安全。



政务大数据的展望

随着技术与法律的健全,政务大数据经过多年发展,正在逐渐向贴近业务实战、保护数据隐私、智能化决策的方向发展。未来大数据平台与人工智能、隐私计算、区块链、零信任、可信执行计算、密码学等技术结合更加紧密,并借助5G、物联网、云计算技术加速发展。目前来看,大数据平台与人工智能已经有了初步结合,如非结构化数据提取、数据分类推荐、模型分析等过程的初步智能化,并通过细粒度的分级分类与权限动态匹配初步实现数据零信任安全。未来,政务大数据平台还会在数据处理过程中诸如规则定义智能推荐、数据深度关联建库推荐、基于业务场景的数据智能分析和辅助决策、通过模型漂移及隐私计算服务实现异地多中心数据安全协同等方面,不断加深与人工智能、隐私计算、5G通信、区块链、物联网等技术的深度融合,完善政务大数据平台的“高可用”、“可生长”特性。另外,未来政务大数据平台将不断完善政务大数据平台的软件安全体系、硬件安全体系、网络安全体系、数据安全体系,形成自身的“内生安全”与“外生安全”双体系安全保障。


截止2021年,中国系统数据创新业务相关产品及服务已广泛运用于政府、部委、央企、金融、能源等多个领域,客户覆盖全国22个省、50多个地市、40余家部委央企及行业客户。面向未来,中国系统将持续聚焦数据创新领域产品技术研发,助力政府及企业盘活数据价值,重新定义城市数字经济发展的动力模型,为数据治理工程有序推进提供“路线图”,让公众共享数字经济发展红利。


中国系统部委行业部解决方案架构师 孙紫宸

咨询邮箱:sunzichen@cestc.cn