论文部分内容阅读
随着互联网技术高速发展,网络上存在的各种文本数据与日俱增。大量冗余、不规范且内容丰富的文本为我们进行信息过滤、浏览和查询等操作带来了极大的困难。文本聚类在数据挖掘中具有极为重要的作用,技术的核心是在无监督的情况下寻找出能够挖掘出文本间潜在的语义信息并实现快速降维的文本表示方法,结合高效的文本聚类算法进行聚类。然而目前文本聚类技术仍然不够完善,实际应用十分受限,因此研究文本聚类具有非常重要的意义。本文首先介绍了与文本聚类相关的一些技术,主要包括文本分词、特征词提取、文本表示以及文本聚类算法。针对其中主要的两个模块文本表示模型和文本聚类算法进行研究分析,提出一种基于RI(Random Index,RI)方法的文本聚类算法。所做的主要研究工作如下:1.在文本表示方面,针对现有基于语义聚类的LSA、PLSA等模型存在潜在语义聚类特性不能够很好体现,特征词汇文本向量维数很高造成文本聚类精确度不理想等的情况,研究了采用基于RI方法并结合特征词权值来生成特征词汇的随机索引向量进行文本表示。RI方法一方面能够很好表现出特征词汇之间的语义特性,另一方面具有降维效果。但采用RI方法进行文本表示时对构建特征词汇的上下文向量生成可能由于向量之间相加造成特征词汇之间存在语义出现相加消解的现象。为此,本文对基于RI方法构建特征词汇随机索引向量的向量元素的随机位置及相关特征词汇权值的计算进行改进,从而使RI方法更能体现特征词汇之间潜在语义聚类和满足文本聚类效果的需求。2.在基于RI文本表示的基础上,针对基于AGNES文本聚类算法存在初始合并点选择困难问题,研究一种基于改进K-Means+AGNES的文本聚类算法,旨在得到更好的聚类效果。改进的K-Means+AGNES的文本聚类算法主要分成两个步骤。首先,为AGNES文本聚类算法生成最佳初始聚类中心点和相应的聚类。为此,本文对K-Means算法进行改进,在设定一个合适的初始聚类范围的基础,通过采用基于FCM的算法不断调整初始聚类个数,以便最终自动获取最佳聚类个数,从而生成初始聚类中心点及相应的聚类。其次,将所获得的最佳初始聚类作为层次聚类算法AGNES的初始合并点,按照AGNES算法进行聚类,直到产生给定最终聚类个数。3.为了验证所提出的基于RI文本表示和基于改进的K-Means+AGNES的文本聚类算法的有效性,本文进行相应的算法测试与结果对比分析。测试与对比分析表明RI方法具有较好的文本表示能力,基于RI的K-Means+AGNES聚类算法具有较好的文本聚类效果。本文最后对全文的研究工作进行了简要的总结,分析了论文中存在不足之处,并展望了下一步工作的研究方向。