论文部分内容阅读
随着数据库技术的发展和存储能力的提高,越来越多的数据被存储起来,而如何在这些海量的数据中寻找真正所需要的知识显得尤为重要。数据挖掘作为一个多学科的交叉学科,能够在海量数据中发现有用的模式和规则,是将数据转化为知识的重要手段。聚类技术作为数据挖掘的一个研究热点,可以作为独立工具发现数据结构,也可以作为其它方法的预处理手段以得到更好的聚类。本文利用J2EE技术构建了一个基于Web的数据挖掘系统,并研究了聚类技术中的K-Means算法和DBSCAN算法,取得的主要成果如下:针对当前对B/S结构数据挖掘系统的需求,有机的融合了当今比较流行且可用性很高的Spring Framework,Hibernate,JSF框架和技术,设计了具有良好人机界面的基于Web的数据挖掘系统;研究并实现了K-Means算法和DBSCAN算法,针对K-Means算法中初始质心的随机选择可能导致局部收敛的情况改进了K-Means算法,利用本文提出的方法计算初始质心能够获得较好的聚类;实现了系统中数据对象和挖掘结果的可视化,利于对数据和挖掘结果有一个直观的印象,方便观察数据结构获得领域知识和理解挖掘结果。本系统是跨平台、J2EE容器无关的,具有良好的可扩展性、易用性、可维护性和安全性的,具有高度模块化结构,实现了从大量的、不完全的、有噪声的、模糊的、随机的各种数据中提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的功能。