基于RI方法的文本聚类研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:yczcjlk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术高速发展,网络上存在的各种文本数据与日俱增。大量冗余、不规范且内容丰富的文本为我们进行信息过滤、浏览和查询等操作带来了极大的困难。文本聚类在数据挖掘中具有极为重要的作用,技术的核心是在无监督的情况下寻找出能够挖掘出文本间潜在的语义信息并实现快速降维的文本表示方法,结合高效的文本聚类算法进行聚类。然而目前文本聚类技术仍然不够完善,实际应用十分受限,因此研究文本聚类具有非常重要的意义。本文首先介绍了与文本聚类相关的一些技术,主要包括文本分词、特征词提取、文本表示以及文本聚类算法。针对其中主要的两个模块文本表示模型和文本聚类算法进行研究分析,提出一种基于RI(Random Index,RI)方法的文本聚类算法。所做的主要研究工作如下:1.在文本表示方面,针对现有基于语义聚类的LSA、PLSA等模型存在潜在语义聚类特性不能够很好体现,特征词汇文本向量维数很高造成文本聚类精确度不理想等的情况,研究了采用基于RI方法并结合特征词权值来生成特征词汇的随机索引向量进行文本表示。RI方法一方面能够很好表现出特征词汇之间的语义特性,另一方面具有降维效果。但采用RI方法进行文本表示时对构建特征词汇的上下文向量生成可能由于向量之间相加造成特征词汇之间存在语义出现相加消解的现象。为此,本文对基于RI方法构建特征词汇随机索引向量的向量元素的随机位置及相关特征词汇权值的计算进行改进,从而使RI方法更能体现特征词汇之间潜在语义聚类和满足文本聚类效果的需求。2.在基于RI文本表示的基础上,针对基于AGNES文本聚类算法存在初始合并点选择困难问题,研究一种基于改进K-Means+AGNES的文本聚类算法,旨在得到更好的聚类效果。改进的K-Means+AGNES的文本聚类算法主要分成两个步骤。首先,为AGNES文本聚类算法生成最佳初始聚类中心点和相应的聚类。为此,本文对K-Means算法进行改进,在设定一个合适的初始聚类范围的基础,通过采用基于FCM的算法不断调整初始聚类个数,以便最终自动获取最佳聚类个数,从而生成初始聚类中心点及相应的聚类。其次,将所获得的最佳初始聚类作为层次聚类算法AGNES的初始合并点,按照AGNES算法进行聚类,直到产生给定最终聚类个数。3.为了验证所提出的基于RI文本表示和基于改进的K-Means+AGNES的文本聚类算法的有效性,本文进行相应的算法测试与结果对比分析。测试与对比分析表明RI方法具有较好的文本表示能力,基于RI的K-Means+AGNES聚类算法具有较好的文本聚类效果。本文最后对全文的研究工作进行了简要的总结,分析了论文中存在不足之处,并展望了下一步工作的研究方向。
其他文献
如何提高基于内容的图像检索(Content-based Image Retrieval)系统的检索结果,这一直是基于内容图像检索的关键问题和最终目的。为了实现这一目标,已经有大量的底层特征提取
在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模
RFID(Frequency Radio Identification,射频识别)是一项基于计算机与通信的综合性科学技术,它利用射频信号通过空间耦合对目标物体进行非接触式自动识别。由于标签的灵便性和
无线传感器网络是由一组传感器节点以自组方式构成的无线网络。无线传感器网络的应用前景非常广泛,主要表现在军事、环境、健康、家庭、商业等领域。随着无线传感器网络应用
近年来,流媒体在互联网上大量应用,然而由于传统C/S模式过分依赖媒体服务器的性能和带宽,使得流媒体的播放质量并不让人满意。为了解决这个问题,P2P技术被引入到流媒体应用中
随着实验技术的高速发展,大量的实验数据不断被获得,基于这些实验数据各种心肌细胞模型相继被创建和完善。如何让这些细胞模型发挥更大的作用成为了本文的一个出发点。本文对
纸币识别器已成功运用于各种自助服务设备,如何以一种有效的方式对其进行在线监控与升级(主要升级识别算法,纸币特征数据库)是我们急需要解决的一个问题。本文通过分析比较嵌
学位
当今世界正处于信息化时代,信息网络对人类的经济、政治、军事等方面产生着巨大的影响。空间网络作为信息网络的一部分,对一个国家的发展战略有着特殊重要的意义。因此,如何保证
在科学技术日新月异的今天,人类的发展进程正在大跨步前进。与此同时,世界范围内生产生活的举动也在随着科技的进步而加快频率。伴随着全球生产力的提升,人类的交流活动以及