找回密码

瀚网软件 | 技术支持

查看: 779|回复: 0

面向共享的政府大数据质量标准化问题研究(2)

[复制链接]

47

主题

47

帖子

227

积分

超级版主

Rank: 8Rank: 8

积分
227
发表于 2017-9-4 16:20:28 | 显示全部楼层 |阅读模式
       当前,在大数据环境下,研究数据质量标准化问题,一个显著的不同于传统的数据质量标准化的问题是强调保障多目标数据融合的实现,这也是发挥大数据价值的重要方式。由于数据来源不同、数据种类异构以及数据类型繁杂,使得用传统的数据质量标准框架和质量维度定义大数据质量标准体系存在不适应问题,因为传统的数据质量体系是针对单一来源数据和单一类型数据的。同时,现在大数据环境下的数据质量体系是将各种单一来源甚至单一数据类型的数据进行“混合”,形成非单一来源、非单一数据类型的“数据集”,应围绕数据融合的目标而定义新的大数据质量体系,并且数据融合的粒度大小决定了大数据质量框架和质量维度是细粒度还是粗粒度。因此,研究大数据环境下的数据质量体系需要在传统数据质量体系的基础上,再研究新的大数据质量体系框架和质量维度。
       国际上到目前为止,对于大数据质量标准化的研究和制定工作都还在起步阶段,主要是依赖数据技术体系,从基础、技术、产品和应用的不同角度进行分析,形成大数据质量标准化体系框架。主要由ISO/IEC JTC1 SC32的“数据管理与交换”分技术委员会、ISO/IEC JTC1 WG9大数据工作组、国际电信联盟(International Telecommunication Union,ITU)以及美国国家标准技术研究院(National Institute of Standards and Technology, NIST)等相关组织和机构开展此项研究和标准编制工作。我国主要是全国信息技术标准化技术委员会在进行大数据标准化工作,期望与国际标准接轨。但是可以预见的是,考虑大数据质量问题的标准化工作难度较大。
4 国际标准ISO 8000与面向共享的政府大数据质量标准体系框架

       4.1 数据质量国际标准——ISO 8000

       ISO 8000是一套国际通用的数据质量管理标准,立足于工业数据质量,旨在为政府、公共机构和各类公司、制造企业以及应用提供更可靠、可信数据的国际标准。ISO 8000涵盖从概念设计到废弃处置整个数据生命周期中的质量特征。ISO 8000列出的特种数据包括但不限于:主数据、事务数据和产品数据。ISO 8000给出了一个用于改善某种特定数据的数据质量框架。该框架可独立使用,也可与质量管理系统协同使用。ISO 8000定义了一组特征,数据供应链中的任何组织都可用其测试数据是否与ISO 8000保持一致。

       ISO 8000是ISO 9000质量管理体系的扩充,以满足质量管理体系内数据产品质量的需求。实践证明,如果不能保证数据质量,ISO 9000是不能真正实现其质量目标的。ISO 9000标准家族是国际标准化组织于1987年制定并经过后续不断修改完善而成的系列标准,可帮助组织实施、有效运行质量管理体系,是质量管理体系通用的要求或指南[4]。它不受具体的行业或经济部门限制,可广泛适用于各种类型和规模的组织。

      图1显示了ISO 8000、ISO 9000和其他数据产品标准之间的关系。数据描述标准规定交换数据的模型和格式,ISO 8000以这些标准为基础,增加了关于这些标准的使用要求,以确保交换数据的高质量。ISO 8000弥合了ISO 9000和数据产品标准之间的差距[5]。

      图1 ISO 8000、ISO 9000和其他数据产品标准之间的关系

      ISO 8000数据质量国际标准由系列部分组成[6],各部分的侧重不同,ISO 8000由以下部分组成。

      ● 第1~99部分:数据质量综述。

      ● 第100~199部分:主数据质量。

      ● 第200~299部分:事务数据质量。

      ● 第300~399部分:产品数据质量。

      其中,主数据标识和描述了个人、组织、地点、物品、服务、过程、规则和标准。该系列标准描述定义主数据质量的特性,规定了一些主数据信息,这些信息应在总体上确保信息发送方和接收方数据通信的可靠性。

      事务数据规定和描述了时间事件,包括个人、组织、地点、物品、服务、过程、规则和标准。该系列标准描述定义事务数据质量的特性,规定了一些业务事务数据信息,这些信息应在总体上确保信息发送方和接收方数据通信的可靠性。

      产品数据质量是产品数据正确性和适用性的度量,产品数据可保证数据能及时地提供给需要这些数据的用户,产品数据是产品从概念到制造需要的数据。

      在政府大数据相关开发与利用的应用实践中,数据质量标准化具有极其重要的战略地位。可以借鉴国内外业已成功应用ISO 8000数据质量国际标准的行业经验,研究ISO 8000数据质量国际标准在政府大数据领域的应用,建立和完善数据质量管理体系,提高政府大数据质量,深化质量标准体系,为发掘政府大数据价值提供保障。

      4.2 面向共享的政府大数据质量标准体系框架

      到目前为止,对政府大数据的范围或边界还没有形成共识,因此,在研究政府大数据质量体系的过程中,要遵循“循序渐进”的策略,从政府各个相关管理部门的管理职责范畴考虑政府大数据的最小元数据集,由此逐步向外延展。

      政府大数据数据质量框架是面向政府管理的数据质量问题的基本概念及其解决方案、实施指导的抽象化结构表达。它表现为一组构件及构件实施指导、实例交互方法,能够在具体应用中灵活定制质量工作架构,较适合政府管理部门范围内数据质量问题复杂多样且统一解决方案的需求。

      从一般意义上来看,国家大数据标准体系由6个类别的标准组成,分别为:基础标准、数据处理标准、数据安全标准、数据质量标准、产品和平台标准及应用和服务标准。而从政府大数据角度看,面向共享的政府大数据质量标准体系是政府大数据质量标准体系的有机组成部分。

      由此建立的政府大数据质量指标体系主要有:数据源质量、数据规模质量、数据结构质量、数据时效质量、数据价值密度质量。这5个指标体系是政府大数据质量标准的5个一级指标,数据源质量指标是数据一般性质量,另外4个质量描述的是大数据的四大特征质量。一直以来,数据质量框架是粗粒度研究数据质量问题和解决方案的重要内容和方向。笔者提出的政府大数据质量体系框架是一个参考模型,在评价各个政府大数据质量的过程中,需因地制宜。

      此外,还需要考虑政府大数据质量维度问题。有些参考文献将数据质量问题直接定义为一组属性(特征),如正确性、适时性、完全性、一致性和相关性等。数据质量判断依赖于使用数据的个体,不同环境下不同人员使用的适合性不同,数据质量是相对的,不能独立于使用数据的消费者来评价数据质量。由此可见,政府大数据的质量问题从数据质量维度来看,可以为建立面向共享的政府大数据质量评价体系的二级乃至三级指标体系提供多维度的指标,从而可以构建不同目标、不同方式的面向共享的政府大数据的质量评价体系框架。

      



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ| 手机版| 瀚网软件  

Copyright © 2001-2015 Comsenz Inc.   All Rights Reserved.

Powered by Discuz! X3.3( 皖ICP备17007560号 )

快速回复 返回顶部 返回列表