论文部分内容阅读
聚类分析技术已经在许多领域的应用中显示出了强大的优势,因此受到了研究人员的高度重视。但是,随着互联网的飞速发展,信息量开始呈爆炸式增长,数据开始呈分布式存储,由于网络带宽、隐私保护、内存容量等问题的限制,几乎不可能把不同站点的数据全部集中在某一个中心点进行聚类,传统的集中式聚类算法面临着严峻的挑战。本文在整理归纳了前人对集中式和分布式聚类算法的研究成果以及存在的问题之后,主要做了以下工作。基于K-means的分布式聚类算法K-Dmeans在伸缩性上有一定效果,但是通信开销较大,本文在此算法基础上引入主从工作方式,提出了DK-Dmeans分布式聚类算法。理论和仿真实验证明该算法有效减少了分布式聚类过程中的数据通信量,并达到了与集中式K-means算法相当的聚类精度。增量集成分布式数据挖掘模型(ⅡDDM)是一种性能较好的基于代理的分布式聚类模型,但是其个体合作以及串行工作方式存在固有不足,本文在该模型基础上引入分层的思想,提出了一种层次式增量集成分布式数据挖掘模型(HⅡDDM),该模型将分布式数据挖掘系统分解成小的子系统,并通过代理分层聚类。与基于ⅡDDM模型的系统相比较,该模型具有更好的伸缩性和执行效率,降低了通信代价,特别适合处理大规模聚类问题。本文最后以实际应用为背景,结合前面提出的新算法和新模型设计了针对传感器网络的分布式入侵检测系统,该系统建立在多Agent分布式体系结构之上,取得了较好的识别效果,具有十分广阔的应用前景。