论文部分内容阅读
我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。本文对Web数据挖掘技术,尤其是Web文本挖掘的关键技术特征词的抽取和聚类分析进行了较为系统地分析和研究。
聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,就是将物理或抽象对象的集合划分成为由类似的对象组成的多个类的过程。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象相似性较小。
由于聚类分析的重要性和特殊性,近年来该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如基于划分(Partition-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。
本文首先对W eb文本聚类中的数据表示方法、特征表示、分词技术、特征项的抽取进行了系统的研究,随后对文本聚类算法进行了研究,主要是对典型的聚类算法(如:K_means、CURE、DBSCAN、SOM、 FCM等)进行了详细的研究与比较,并提出了两种改进算法:一个是对SOM算法进行改进,另一个是基于SOM和K-means的聚类组合算法。