一种优化的顺序IB文本聚类算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:xynady
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的飞速增长,对于文本聚类技术的研究显得更为重要。由于文本数据高维性和稀疏性,传统的文本聚类算法并不能让人满意。IB方法是基于信息论的数据分析方法,该方法通过信息压缩与信息保存之间的平衡处理,有效地解决了精度和效率之间的平衡问题。IB方法的性质决定其适合解决文本聚类问题。在基于IB理论的算法中,sIB是较好的算法,但仍存在运行效率低、优化不充分等问题。本文针对sIB算法在文本聚类问题上存在的问题:易陷入局部优解、效率较低,基于模拟退火方法,提出一种优化的顺序文本聚类算法SA-isIB。该算法根据一个合理的退火序列,从基本sIB算法产生的初始聚类结果中随机选取一定比例的文本,对其类标记进行随机修改并重新对解进行优化,在经过退火过程后,SA-isIB能够得到比sIB算法精度更高的文本聚类结果。在研究IB的公共文本数据集上的实验结果表明:与sIB算法相比,SA-isIB不仅能有效提高文本聚类的精度,还具有较高的运行效率;并通过实验可知,随着优化次数的增加,SA-isIB的聚类精度和运行效率优势更加显著,且SA-isIB的精度提高幅度逐渐减小,这证明算法是收敛的。由于IB方法已经成功应用于许多领域,SA-isIB算法亦可以应用到其他实际问题中,该算法的研究具有广泛的实际意义。
其他文献
信息化工程可以实现农业中水资源优化配置和调度、信息共享、电子监控、闸门自动化、水泵自动化和优化等各个方面,实现灌区中信息交互和共享。运用计算机技术对灌区、水库、水
近两年来,移动智能设备特别是智能手机在中国迎来了爆炸式的增长,有望超越美国成为全球最大的市场,同时微信、QQ、微博等应用大量使用,这些都涉及到大量的文字信息处理,所以人们对
随着计算机技术的发展,嵌入式系统己成为计算机领域的一个重要组成部分。而采用ARM微处理器作为硬件基础和μC/OS-Ⅱ作为嵌入式操作系统被广泛的应在各种嵌入式应用系统中。而
近年来,伴随着视频编解码技术的突飞猛进,特别是MPEG-4和H.264的出现,使得视频编码效率得到了很大的提升。另一方面,随着Internet和无线网运载能力的增强,基于Internet和无线网的视
如今,随着虚拟现实技术的迅速发展,为了更好的处理计算机图像,图像分割技术作为图像预处理的步骤,其地位变得尤为重要。对于如何更好的提高图像预处理质量、提高图像分割质量
移动自组网络作为一种新型的移动多跳无线网络,与传统的无线网络有着许多不同的特点。它既不依赖于任何固定的基站也不需要集中的管理,而是通过移动结点间的相互协作、自我组织
计算机书法创作模拟涉及人工智能,图像处理,认知科学等。计算机书法生成过程中需要大量的字库,中国古代的书法碑刻是一个自然可选的素材。从碑刻书法的提取到字库的形成需要经过
联想记忆的实现一直是人工神经元网络研究的方向之一,其中一个重点就是实现多对多联想记忆。多对多联想记忆的核心是如何实现一对多联想记忆,也即是如何识别记忆模式中的公共项
在大数据技术的驱动下,教育数据研究对教育发展规律探索的作用愈加重要。通过挖掘、分析教育数据,从更深层揭示教育发展轨迹。深度挖掘教育数据中的隐藏信息,可以暴露教育过
随着计算机网络信息化技术及医学影像学技术的飞速发展,基于影像技术的现代医疗正以其独特的魅力步入数码时代;同时作为经验科学范畴的医疗事业,其发展,对内对外都必须百家争鸣,促