论文部分内容阅读
开放政府数据是大数据时代下我国经济社会发展到一定阶段的产物,已经上升至国家战略高度,在政治、经济、社会、文化等方面创造了丰富的价值效益。开放政府数据不仅仅是将数据开放出来这么简单,而是要盘活存量数据,优化增量数据,提高开放政府数据对经济和社会的可用性、判断决策的合理性和数据的精准应用,从最初的数据共享向数据可用性发展。目前,我国开放政府数据呈现总量稳步增长,政策法规支持力度加大,数据平台建设逐渐完善的趋势,已有100多个地方政府上线了开放数据平台,开放数据集达七万多个,两年内增幅近八倍。但是数据质量水平却参差不齐,重创造轻管理、重数量轻质量、重开放轻利用的问题逐渐突出,缺乏科学的数据质量评价标准及体系。为解决上述问题,本文的主要工作如下:(1)国内外数据质量评价框架分析。对国外以开放数据晴雨表为代表在内的5个质量评价框架,以及国内的开放树林指数进行学习借鉴,重点分析了框架中具体的评价维度和指标,为本文的框架构建提供基础。(2)构建数据质量评价框架。调查我国地方政府开放数据平台存在的质量问题,从数据质量问题角度出发,建立了包含8个质量维度的地方政府开放数据质量评价框架,对我国5个试点地方的数据集和门户网站进行量化实例评价。(3)开发数据质量本体。基于七步法的本体模型创建方法,建立了数据质量本体,将本体应用到5个试点地方中,对数据质量评价结果进行统一的实例描述,并引入本体推理方法对评价结果进行查询和推理,在语义上实现评价结果的复用和共享。(4)提出数据质量改进机制和方法。在政府数据治理框架的基础上,提出了包括制度保障、数据处理、数据质量控制和评估反馈的质量改进机制,在质量评价框架和数据质量本体的基础上对数据清洗和本体推理两个质量改进方法进行应用验证。(5)新冠肺炎疫情数据的质量评价与改进。调研发现我国已有13个地方政府平台开放了共1 13个新冠肺炎疫情数据集,利用本文构建的数据质量评价框架对数据进行评价,应用数据清洗和本体推理方法改进数据质量,针对新冠肺炎疫情数据提出质量改进建议。本文旨在改进我国政府开放数据质量,为我国国家及地方政府开放数据平台的数据质量发展工作提供一定的借鉴和参考。