论文部分内容阅读
开放政府数据受到各个国家的高度重视。随着开放政府数据的不断发展,“交通”领域作为重要民生领域之一得到了广泛关注。通过开放交通数据,社会和公众能够及时获取相关数据,来满足各种交通需求,解决实际交通的问题和障碍。目前我国政府数据开放平台上面都发布了交通数据,但存在一系列的质量问题,还没有实现标准化、规范化、互操作和机器可读的目标,将直接影响开放交通数据的利用和发挥其价值和作用。在此背景下,本文的主要工作如下:(1)从目前已上线的政府数据开放平台中选取主要平台作为调查对象,对这些平台上“交通”主题的数据进行调查和分析。以我国开放交通数据的数据集、元数据以及结构元数据三个层次进行分析,分析我国开放交通数据存在的质量问题,总结归纳了数据集中存在的“数据笼统”、“数据值缺失”等21类问题,以及元数据中存在的“缺失重要元数据”、“发布时间晚于更新时间”等14类问题。(2)从数据治理的角度出发,提出针对开放交通数据的数据治理框架,在交通数据的开放过程中使用统一的数据标准,将其融入到开放交通数据发布流程中。以问题为导向,构建基于标准的数据发布流程,包括数据抽取、质量评价、质量分级、清洗转换、数据发布、质量考核和质量溯源管理等部分。构建了由数据质量评价标准、CSV标准、数据标准和元数据标准组成的标准体系。(3)对开放交通数据的元数据进行了研究,提出针对开放交通数据的元数据标准方案,给出了“数据目录”、“数据集”、“数据资源”和“数据服务”四个描述对象,并根据标准方案在实例发布中给出了 JSON-LD格式的元数据。(4)构建了开放交通数据质量控制框架,给出数据清洗方法,包括“不完整数据”和“不一致数据”的清洗方法等。从平台中选取具体的开放交通数据作为实例,从数据集和元数据两个方面进行质量评估,实现提升数据质量的目标。