论文部分内容阅读
近年来,随着Internet的大规模普及和企业信息化程度的不断提高,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。快速高质量的文本聚类技术可以将大量文本信息组成少数有意义的簇,这种技术能够提供导航、浏览机制,改善检索性能。因此,文本聚类技术的研究已成为文本信息挖掘中的一个非常重要的领域。
文本聚类通过对文本内容进行分析,将原始文本集分成若干个簇,同时要求簇内的文本相似性尽可能大,而簇之间的文本相似性尽可能小。现在已经有许多的文本聚类方法被提出来,这些方法大多都是基于向量空间模型,根据某个距离函数或余弦相似度函数计算文本之间的相似度,然后把距离相对近或相似度高的文本聚到同一个簇中。
针对文本数据集高维稀疏的特点,本文引入了频繁项集的概念,提出一种新的基于频繁项集的文本聚类算法。该算法将文本集中的每个文本看作一个事务,把每个文本所包含的词项作为该文本所对应事务的项。对于给定的最小支持度阈值,算法首先使用频繁项集挖掘算法来找出事务中所有的频繁项集,然后根据这些频繁项集进行文本聚类。本文提出的算法能够克服文本数据高维、稀疏的特点,而且不需要事先给定簇的个数。同时,聚类结果中的每个簇都和一个频繁项集相对应,频繁项集中的所有项为该簇提供了一个准确的描述信息。最后,公共数据集上的比较实验说明了该算法能够取得比其它文本聚类算法更好的聚类质量。