【摘 要】
:
当前,企业信息化的程度要求越来越高,其中一个重要的方面就是企业的数据的管理,根据“进去的是垃圾,出来的也是垃圾(garbage in, garbage out)”这条原理,为了支持正确决策,
论文部分内容阅读
当前,企业信息化的程度要求越来越高,其中一个重要的方面就是企业的数据的管理,根据“进去的是垃圾,出来的也是垃圾(garbage in, garbage out)”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此数据清洗正在获得越来越多的关注,因为数据清洗是提高数据质量的重要途径,但是目前的数据清洗系统还面临许多问题,采用Agent技术是解决所面临问题的有效方法。Agent技术源于人工智能,一般认为Agent是一个自治的实体,它处于特定的环境中,有自己的目标,为了完成目标可以灵活、自主地适应环境,同时,Agent的动作反过来同样影响环境的状态。一般来说,单个Agent完成的功能是有限的,所以,多Agent系统的应用更加广泛。在多Agent系统中,Agent之间必须进行必要的交流,交换有关环境的信息,通过协商与协作来实现系统的功能。本文通过对数据清洗现状进行分析给出了当前数据清洗系统存在的问题:智能性差、缺少交互、缺少数据分析功能、对于分布式清洗和实时清洗的处理能力有限等;然后从Agent的基本理论出发,介绍了Agent的定义和一些主要特性,接下来分析论证了采用Agent技术解决以上问题的可行性。在此基础上本文提出了基于多Agent的数据清洗模型和框架,设计并实现了多Agent数据清洗系统,通过对系统实现过程的详细叙述,展示了如何将Agent技术应用于数据清洗领域。把Agent技术的思想和方法用于数据清洗,增加了数据清洗的智能性,扩展了系统的交互能力,减少了用户的重复性工作,提高了数据清洗的效率。本文最后将设计实现的数据清洗系统应用于海洋数据环境中。通过具体的应用验证了数据清洗系统对数据的正确性、有效性、完整性与一致性都有良好的检测与控制能力,由此证明了基于多Agent的数据清洗系统的实用性。
其他文献
图论是组合数学领域的一个分支,20世纪60年代末,随着计算机技术的产生和发展,组合数学,特别是图论理论得到了人们越来越多的关注,时至今日,人们面对的计算模型以及数据结构仍然在变
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编撰、词义消歧和跨语言
粗糙集能有效地处理不精确、不完整等各种不完备的信息与知识,它与其他不确定性理论的最大区别就是除了需要处理的数据集外,不需要其他任何先验知识,通过直接对数据进行分析
XML(extensible markup language,可扩展标志语言)是由World Wide Web Consortium(W3C)的XML工作组定义的。XML以其扩展性、结构性、平台独立性和自描述性等特性成为数据表示
实体解析是指对同一实体的不同的表现形式进行识别、连接和分组,它在数据库管理、机器学习和信息检索中均有广泛应用。传统的实体解析方法主要针对小数据集,重点关注解析结果
近几年来,随着众多P2P系统地出现,P2P网络技术逐渐成为人们研究的热点。P2P网络技术是基于一种对等的思想,这种思想正在改变着人们对网络模式的思考。P2P网络技术目前主要应用在
在一些无线传感器网络的应用系统中,如事件检测和异常检测系统,带有异常信息的数据在传输时对实时性要求是很高的,要尽最大的可能使得该数据在一个限定的时间内传送到目的节
随着无线技术的不断发展,越来越多的用户选择通过无线局域网(WLAN)接入互联网;这一趋势使得提高无线宽带接入的质量逐步成为了研究热点。近年来,在WLAN的基础上出现了多跳无
量子计算是新近发展起来的,利用量子力学原理进行信息处理的前沿学科。随着理论与技术的成熟及更多专家和学者加入该领域的研究,量子计算得到突飞猛进的发展,对计算机科学的发展
文档的数字化是建设信息化社会的迫切需要,作为转换工具的OCR(Optical Character Recognition,光学字符识别)技术已得到广泛应用。随着数字成像设备的普及,OCR技术开始进入视