找回密码

瀚网软件 | 技术支持

查看: 789|回复: 0

面向共享的政府大数据质量标准化问题研究(1)

[复制链接]

47

主题

47

帖子

227

积分

超级版主

Rank: 8Rank: 8

积分
227
发表于 2017-9-4 16:12:11 | 显示全部楼层 |阅读模式
1 引言

        大数据时代的到来,对我国政府的决策模式、治理模式和工作方式等都提出了新的挑战。推进政府大数据战略对实现政府治理有重要的意义,是政府治理实现的强力助推器。

      当前,不论在整个社会的哪个行业、哪个部门、哪个单位、哪个个人,“数据”成为其核心属性,“数据”成为其核心业务纽带或重要的标识工具,即“数据”贯穿着集体或个人业务信息的“采集、存储、传输、处理、应用”的全过程,“拿数据说话”成为共识。

      对于政府管理来说,“拿数据说话”就是借助大数据分析、挖掘等技术,对政府获得的方方面面的大数据进行深度分析,建立关系、找出问题、发现规律等,从而辅助政府管理部门和主要领导对政府管理的方方面面的工作进行决策,提高决策的有效性和科学性。而这个前提就是政府数据能够共享,并且共享的数据是准确的,一定程度上是标准化的,只有保障政府大数据能够共享,并且数据准确、完整,那么在此基础上进行辅助政府决策的大数据分析,才能够表现出发现问题准确、建立问题之间联系的关系脉络清晰、发现的规律有迹可循等特点。因此,研究政府大数据,首先要解决的是政府大数据开放与共享问题,其次最重要的是政府大数据的质量标准化问题。

2 政府大数据共享及其数据质量面临的挑战

       政府大数据一方面来自政府部门本身的业务积累,如医疗管理部门、交通管理部门、城市经济管理部门等,另一方面来自专门单位的采集,如地理信息、生态环境信息等。来源可谓广泛,种类可谓繁多。政府大数据是国家和全社会的公共财富,价值密度高。然而,在笔者的研究过程中发现,真正要实现政府大数据的潜在价值,不仅技术方面面临着大数据复杂性带来的问题(如数据本身的复杂性、计算的复杂性和信息系统的复杂性),而且政府大数据融合方面还面临着政府大数据资源的管理、质量和标准化等一系列的问题和挑战,主要有以下几个方面。

       (1)数据本身的变化

       数据的价值,从单一转向多元;政府数据资源的形态,以结构化为主转向以非结构化为主,从离线静态数据转变为在线动态、实时数据;数据资源的战略地位,从机构组织层转向跨机构组织、区域和国家层;数据权由简变繁,并具有不确定性,涉及信息主体的所有权、删除或留存处置权、利用权、授权他人利用的许可和审批权、隐私保护权等,甚至涉及国家数据主权议题等。

      (2)数据管理主体的变化

      数据管理主体从数据的控制者转变为数据的提供者、保护者和获取权利的协调者;从追求部门局部利益最大化转向追求政府整体效益及社会利益的最大化;从信息孤岛转向跨界、跨领域、跨部门、跨系统、跨层级的信息融合;需要多主体联盟与跨学科复合型数据人才支持。

      (3)数据管理活动过程的变化

      政府数据资源的采集,从单一来源转向多源异构,从基于目标的局部采集转向基于场景的全面采集;政府数据的存储,从分布式、冷备份存储转向云端、热备份存储;政府数据的利用,从个别部门的数据公开转向政府数据集的整体开放,从处置边界明确转向互联互通,边界模糊;政府数据的维护,从信息化管理转向数据化、网络化、智能化、“互联网+”的现代化治理。

       上述这些挑战在笔者研究“宁波市政府大数据项目的数据开放与社会化利用”等课题的过程中已经充分暴露出来。突出表现首先是政府各个部门的数据标准不一、质量千差万别,没有基准(benchmark),甚至同一个市民的个人属性数据在公安、社保等部门的数据项、数据集等都不统一,同一个人的属性数据甚至还“打架”。上述存在的这些问题和挑战可归结为:如何在技术和政策上保障政府大数据共享目标能够实现;在技术保障上,除了共享的信息网络系统体系外,作为政府大数据本身,如何保障共享的数据可用、可融合,就是政府大数据开放共享最基础性的工作。若数据不准确或数据缺失,即使共享也没有价值;若数据标准没有统一,即使共享也难以发挥大数据融合带来的令人期盼的效果。政府大数据质量问题在现阶段比较突出,这给依赖于政府大数据进行政府重大事项的决策带来很大的风险。

3 大数据环境下数据质量标准化与传统的数据质量标准化的差异

       大数据质量问题是数据质量问题在这个新阶段(大数据环境)表现的一个新形式,是数据质量历史的一个阶段。可以预见,伴随着信息技术的发展和不断演化,数据质量会呈现出不同的变化形式。

      20世纪80年代以来,国际上对数据质量的概念也从狭义向广义转变,准确性不再是衡量数据质量的唯一标准。20世纪90年代,美国麻省理工学院(Massachusetts Institute of Technology,MIT)开展的全面数据质量管理(total data quality management, TDQM)活动,提出基于信息生产系统生产的数据产品的质量管理体系,在数据生产过程中形成的数据质量(如精度、一致性、完整性等)成为基本要求。数据用户要求的满意程度也成为衡量数据质量的重要指标,认为数据质量就是要“反映出数据对特定应用的满足程度”[1]。例如,在智能制造系统中,数据是应用程序的初始原料和最终产品,并经过应用程序的组织,提供给用户[2]。同样的一组数据,面对不同的应用要求,可能表现出不同的数据质量。

      传统的数据质量的研究和实践总体上可归纳为“自上而下”和“自下而上”两种方式[3]。“自上而下”方法通常是先提出数据质量框架(data quality framework)和数据质量维度(data quality dimension),数据质量维度也称为数据质量属性、数据质量元素、数据质量衡量指标、数据质量特征等,然后在应用中通过与具体的需求相结合,构建可执行的细化的数据质量维度;而“自下而上”则是从具体需求出发,提炼出一系列的数据质量维度,通过实际应用的验证,最后归纳形成数据质量框架。在具体的应用实践中,既存在理论上构建数据质量框架但不细化到可操作的维度的现象,也存在仅在具体操作层面定义数据质量维度、改善数据质量状况但不上升到数据质量框架的具体应用,而且在实际实践中后者更多。

      






回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ| 手机版| 瀚网软件  

Copyright © 2001-2015 Comsenz Inc.   All Rights Reserved.

Powered by Discuz! X3.3( 皖ICP备17007560号 )

快速回复 返回顶部 返回列表