电子政务系统中海量数据清洗方法研究与应用

来源 :东华大学 | 被引量 : 11次 | 上传用户:wef123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,管理者在进行决策分析和制定时不能单纯依靠以往的经验,必须借助必要的数据来进行科学的管理。这导致管理人员进行决策分析时对数据的依赖性更加强烈。为了使分析尽可能的准确,人们提出了建立数据仓库的要求。但是在构建数据仓库的过程中,会不可避免的存在各种各样的数据质量问题,这必然会影响数据仓库前端的决策支持系统产生错误的分析结果。为了过滤掉这些质量问题,必须对其进行数据清洗来提高数据质量。数据清洗已经成为数据仓库、数据挖掘以及网络数据处理领域的一个重要课题。本文首先对数据清洗知识进行全面和详细的描述,介绍了数据清洗的概念、意义和国内外研究与应用现状。对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。本文对属性清洗及重复记录清洗所用到的技术和各种算法进行了分析和总结。本文还介绍了领域本体以及本体表示语言——OWL等相关知识,并重点研究如何结合领域本体知识来进行数据清洗。针对传统知识库表示的局限性,本文通过分解和重组领域知识,建立网状结构的知识库,其中叶子结点对应具体知识实例,称为原子知识,非叶子结点只对应知识概念。同时提出相关的数据清洗算法,根据用户的选择,自动提取原子知识进行分析,消除重复,按照处理权重建立原子知识序列,然后逐一对数据进行清洗。实验表明,该算法能有效优化用户的请求,减少对海量数据的遍历次数,海量数据的清洗效率明显提高。
其他文献
随着监测环境的日趋复杂多变,传统无线传感器网络所获取的简单数据已不能满足人们对环境监测的全面需求,迫切需要将信息量丰富的图像、音频、视频等媒体引入到以传感器网络为
随着软硬件技术的不断发展,系统级测试已成为软件质量的重要组成部分。在市场竞争日益加剧的情况下,提高产品测试效率已成为关键问题。尽管软件自动化测试的理论方法和工具越
城乡规划在信息化技术、互联网+、5S技术与业务流高速推进下不断创新。城乡规划管理信息化在全国已实现数字城市,正迈入智慧城市的快速发展阶段,同时大型城市开始海绵城市的
网络信息的海量,新的网络技术的不断出现,入侵行为的多样化,大量的新的入侵的出现使得目前的入侵检测系统的检测性能低下,误报率高,达不到网络安全防护要求。本文研究的是基
本课题重点研究基于嵌入式的网络实时传输系统,在深入分析和研究了嵌入式操作系统及视频压缩编码算法后,针对现有的各种数据传输协议存在的不足,提出了一种新的基于用户体验
网络发展日新月异,精确的进行网络流量分类也变得越来越重要,因为很多应用使用随机的端口号,而且基于安全的考虑,也使用了加密的数据,传统的基于端口号或者是基于特征串的网
近年来,大量和潜在无限的数据流是由实时监视系统、通信网络、Internet传输信息、网页点击流、金融市场的联机事务处理和其他动态环境产生的。与传统的数据集不同,数据流是按
由于XML具有良好的数据格式、可扩展性、高度结构化、便于网络传输等特性,这些决定了它是一项卓越的应用广泛的技术。本论文以网络考试系统为应用对象,对XML及相应技术进行了
软件即服务(Software as a Service,SaaS)以网络为载体、以云计算为依托为用户提供软件租赁服务,具有价格低廉、部署迅速和配置灵活的特点,是未来软件业发展的重要方向。由于
随着计算机技术和电子通讯技术的快速发展,嵌入式系统的应用日益广泛,嵌入式产品已经进入到人们的日常生活中,并将有更广阔的发展前景。ARM作为嵌入式系统的主流微处理器,在