论文部分内容阅读
由于互联网的飞速发展以及信息爆炸带来的冲击,如何在信息的海洋中快速方便的获取有用的内容成为一项挑战。在这样的背景下,文本聚类技术也得到了深入的研究和广泛的应用。文本聚类是文本挖掘领域的一个重要研究分支,也是聚类方法在文本处理领域的应用。它可以发现与某个文本相似的一批文本,从而过滤掉大量的无关的信息,它也可以帮助相关度排序,从而使最有用的信息位于第一位置呈现给读者,提供一种组织和浏览大规模文本集的方法。因此文本聚类技术不仅是信息检索领域的一项关键技术,而且是研究更智能化的搜索引擎的入手点。目前,由于计算智能技术的逐渐成熟,为其与文本聚类技术的融合提供了可行性。
本文的主要研究工作为:
(1)基于计算智能的文本聚类算法的研究。对计算智能的相关算法与文本聚类技术的融合进行了理论上的详细分析和论述,在此基础上给出了相应的算法流程描述,并进行了对比试验。目前,基于粒子群优化(PSO)的文本聚类算法还没有得到深入的研究,由于PSO算法的简单性及时间消耗小的特点,对于海量数据挖掘其具有重要的意义。在分析PSO收敛早熟问题的基础上,提出了一种加窗监督的PSO算法并将其应用到文本聚类中,仿真实验表明此算法不仅可以提高PSO算法的全局搜索能力,从而避免早熟收敛,而且可以有效的提高文本聚类的精度。
(2)基于广义后缀树的文本聚类(STC)模型及算法的研究。分析了经典STC存在的一些缺点,在综合考虑了主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,极大的提高了文本聚类的精度。同时,为了进一步提高聚类的效率,给出了基类选择的一种简单有效的测度,来排除一些无意义的广义后缀树的节点。
(3)基于信息增益的关键词提取算法的研究。关键词的提取可以对聚类结果进行有效的类别标识,目前相关研究工作不多。为此提出了基于信息增益的关键词提取算法,为文本聚类的广泛应用提供了可视性基础。实验表明,所提出的基于信息增益的关键词提取算法可以有效的对聚类结果进行类别标识。
(4)讨论了基于文本聚类的相似词识别的问题,将词间的相似转化为文本间的相似的思路为进一步在此方向的深入研究提供了基础。