基于计算智能的文本聚类算法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:nimadeburang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网的飞速发展以及信息爆炸带来的冲击,如何在信息的海洋中快速方便的获取有用的内容成为一项挑战。在这样的背景下,文本聚类技术也得到了深入的研究和广泛的应用。文本聚类是文本挖掘领域的一个重要研究分支,也是聚类方法在文本处理领域的应用。它可以发现与某个文本相似的一批文本,从而过滤掉大量的无关的信息,它也可以帮助相关度排序,从而使最有用的信息位于第一位置呈现给读者,提供一种组织和浏览大规模文本集的方法。因此文本聚类技术不仅是信息检索领域的一项关键技术,而且是研究更智能化的搜索引擎的入手点。目前,由于计算智能技术的逐渐成熟,为其与文本聚类技术的融合提供了可行性。 本文的主要研究工作为: (1)基于计算智能的文本聚类算法的研究。对计算智能的相关算法与文本聚类技术的融合进行了理论上的详细分析和论述,在此基础上给出了相应的算法流程描述,并进行了对比试验。目前,基于粒子群优化(PSO)的文本聚类算法还没有得到深入的研究,由于PSO算法的简单性及时间消耗小的特点,对于海量数据挖掘其具有重要的意义。在分析PSO收敛早熟问题的基础上,提出了一种加窗监督的PSO算法并将其应用到文本聚类中,仿真实验表明此算法不仅可以提高PSO算法的全局搜索能力,从而避免早熟收敛,而且可以有效的提高文本聚类的精度。 (2)基于广义后缀树的文本聚类(STC)模型及算法的研究。分析了经典STC存在的一些缺点,在综合考虑了主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,极大的提高了文本聚类的精度。同时,为了进一步提高聚类的效率,给出了基类选择的一种简单有效的测度,来排除一些无意义的广义后缀树的节点。 (3)基于信息增益的关键词提取算法的研究。关键词的提取可以对聚类结果进行有效的类别标识,目前相关研究工作不多。为此提出了基于信息增益的关键词提取算法,为文本聚类的广泛应用提供了可视性基础。实验表明,所提出的基于信息增益的关键词提取算法可以有效的对聚类结果进行类别标识。 (4)讨论了基于文本聚类的相似词识别的问题,将词间的相似转化为文本间的相似的思路为进一步在此方向的深入研究提供了基础。
其他文献
学位
CDMA已经是一项非常成熟的无线多址接入技术,已成功运用于2G和3G移动通信系统中,在未来移动通信系统的研究中,CDMA技术仍然是人们关注的焦点之一.与此同时,随着移动通信系统的发
在嵌入式系统飞速发展的今天,各种嵌入式系统广泛运用于生产和生活的各个领域。媒体应用的发展,对嵌入式硬件和软件的设计都提出了更高的要求。为了在减少功耗并获得更高的计
3GPP长期演进(LTE)计划是关于UTRA和UTRAN的改进,是对包括核心网在内的全网的技术演进。其话音业务部分将由VoIP来实现。LTE主要有两个部分组成,无线接口和无线网络结构部分
自由空间激光通信具有高速率、抗电磁干扰、保密性好、信息容量大、组网迅速、构架简单和协议透明等诸多优势,已是目前研究的热点之一,由于大气随机信道的影响以及高功率激光器
随着密集波分复用(DWDM:Dense Wavelength Division Multiplexing)技术的成熟与广泛应用,通信网络的传输容量已经能够满足各种业务的需求。光交换网络以其高速高带宽的优势成
卫星导航系统日益成为人们生活中不可或缺的一部分,并在多数领域中发挥着重要作用。由于卫星导航系统本身固有的安全脆弱性,导航信号容易被敌方或犯罪分子利用来欺骗受害者接收