基于Web Service信息集成系统的数据清洗研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sky007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络和数据库技术的飞速发展以及人们获取数据手段的多样化,人们所拥有的数据资源日益丰富,数据量急剧增加。数据的价值在于它的质量,基于劣质数据的决策是不可信的。数据使用者的运用质量与数据质量直接相关。但是面对数量巨大而零乱的数据人工处理是非常困难的,数据质量问题成为制约数据应用的“瓶颈”之一。纠正数据错误是避免错误决策、降低决策风险的重要环节,数据清洗就是用来完成这项艰巨任务的。本文介绍了数据质量的概念,对数据质量问题按其类型进行分类,并介绍了解决不同数据质量问题的一些数据清洗工具。详细阐述了针对基于Web Service信息集成系统中面临的数据质量问题而设计实现的数据清洗的体系结构、流程和各个模块的功能。本文设计的数据清洗框架主要实现了以下功能:(1)设计并实现了数据预处理模块,使系统将比较复杂的多数据源实例化问题转化为相对比较简单的单数据源实例化问题; (2)设计并实现了包括数据选取模块、数据标准化模块、重复性判断模块和映射模块,可以较好地完成数据清洗任务;(3)设计并实现了系统维护和扩展接口,极大地方便了对本数据清洗系统的升级与维护操作;(4)提供了数据字典及规则库功能,使该数据清洗系统的应用灵活性得到了极大提高。
其他文献
计算机视觉技术是通过结合摄像机的捕获功能和计算机的处理能力来模拟人眼,进而对视频帧中的目标进行识别、跟踪和测量的机器视觉技术。对井下作业进行视频监控可以提高井下
随着我国经济的快速发展,城市交通需求发生了前所未有的迅速增长,交通拥挤问题己经成为制约城市可持续发展的主要因素之一。为了更有效地控制高峰时段的道路交通量,缓解城市交通
自从GPS问世以来,就以其高精度,全天候,全球覆盖,方便灵活和优质价廉吸引了全世界许多用户。但是我国所用的GPS芯片和OEM接收板几乎都是靠进口,也没有开发出高水平的整机和系统。
作业车间调度问题具有计算复杂性、动态约束性、多目标性等特点,被证明是典型NP困难问题,近几年各种智能计算方法被引入到作业调度问题中,如遗传算法、模拟退火算法、启发式
以现代通信理论为基础,以数字信号处理为核心,以现代微电子技术为支撑的软件无线电技术自从90年代初被提出以来,取得了引人注目的进展,引起了包括军事通信、个人移动通信、微
随着移动通信技术的发展,智能手机被广泛应用在人们日常生活中,大量的信息被存储在这些设备上,例如手机的联系人,日程安排,短信等,这些信息由于手机本身的原因存在着易失性和不安全
P2P网络安全模型的研究是当前热点。由于传统的集中式信任机制不适应P2P网络的要求,需要建立一个分布式的信任机制来加强系统的可靠性。而信任模型作为信任机制中重要的组件,
在当今数字化信息时代,很多企业开始推行网络化的信息管理。其中采购管理也是企业信息化管理的一种。传统的企业采购管理通过纸质媒介平台进行流转,缺乏信息化的管理手段,已
随着电力系统不断的向开放式的方向发展,电网调度系统越来越复杂,对电网调度系统之间的协调性的要求也越来越高,为了适应这种要求,多Agent技术被应用到电网调度系统中。本文
微机电系统(MEMS,Micro-Electro-Mechanism System)、片上系统(SOC,System on Chip)和无线通信技术的进步孕育了无线传感器网络(WSN,Wireless Sensor Network)。它能够实时监