论文部分内容阅读
随着网络技术以及数据分布式存储技术的发展,分布式Web数据挖掘技术应运而生且逐渐成为研究的热点。对于分布式Web数据挖掘问题,当站点数据非常庞大时,将会面临通讯开销大和执行效率低等问题。针对这些问题,结合层次设计思想以及分治策略,将规模庞大的系统分解成若干规模较小的子系统,从而层次地利用挖掘模型执行挖掘任务是一个非常可行的解决方案。移动Agent技术是随着网络应用的日益深入而发展起来的一项新兴技术。移动Agent技术的智能性和移动性,不仅降低了网络负载,而且提高了通信效率;此外,其支持异步自主交互、支持断连操作,具有安全性、并行性,具有学习、容错、智能化路由能力等优点,使得移动Agent技术在复杂的分布式问题求解方面表现出非凡的优势,因此,将移动Agent技术应用于分布式Web数据挖掘系统中,具有很好的研究及应用前景。本文主要工作包括三个部分:第一部分系统研究和总结了移动Agent技术和分布式Web数据挖掘技术的理论知识;第二部分以移动Agent技术为基础,在前人所提出的优化增量知识集成的分布式Web数据挖掘模型——OIKI|的基础上,提出了一种层次优化增量知识集成的分布式Web数据挖掘模型——OIKI;第三部分将该模型应用于分布式聚类问题中,提出一种基于移动Agent的Web聚类挖掘算法。仿真实验和结果分析表明,HOIKI模型较OIKI模型具有更好的集成伸缩性,实现更加灵活,执行效率更高,可以更好地适应分布式环境,有效地降低通讯代价,特别适合于解决大规模异构分布式Web数据的聚类问题。本文中,HOIKI模型仅仅考虑了结点集群分布时,优化网络传输这种情况,但是实际情况往往复杂得多,因此考虑建立更加复杂的优化指标来提高系统的整体挖掘性能是进一步深入研究的课题。