基于语义相似度的论文文本聚类算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:acxyvpfag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对网络上日益增多的论文,如何快速有效地检索出符合使用者需要的论文成为论文检索所要面临的一个难题。目前常用的方法是基于关键词匹配的方法,该方法查询速度快,但是没有解决同义词、多义词及词语概念上下位等问题,检索效果不尽如人意。如果利用文本聚类技术,对检索结果进行进一步的处理,把检索结果集合按照其相关主题进行划分,生成不同主题的簇,同时删除冗余的项,为用户提供一个清晰的导航。这将大大的有利于用户发现自己所需的相关论文,提高论文检索的质量。本文改进了一种基于语义相似度的文本聚类算法(TCUSS算法)并将其应用于论文文本聚类。改进后的算法提出了一种适合论文文本的特征选择方法和聚簇描述方法,文本数学表示方法和聚类算法通过对TCUSS算法针对论文文本进行一定改进得到。在特征选择和聚簇描述中,算法利用论文关键词能较好的表达文章主题这一特点,结合WordNet语义词典,围绕关键词所表达的概念进行特征提取,还利用用词典中的同义词集和计算特征词间的语义相似度分别解决了同义词与多义词问题;在论文文本数学表示方面,本文采用概念列表表示文本;在词语相似度计算中,用关键词所在概念节点代替关键词,计算概念节点在WordNet中的语义距离,根据语义距离计算词语相似度;文本相似度通过计算特征词间的相似度获得;采用了一种基于语义相似度的文本聚类算法,该算法结合了图的理论进行聚类分析,避免了算法对聚簇形状的限制;用特征词在整个聚簇中出现的词频和其在WordNet中包含的信息量来衡量特征词权重,选取部分权重大的特征词进行聚簇描述。最后为了检验算法的有效性,设计了一个基于语义相似度的论文文本聚类系统,并通过自建论文文本数据集上与TCUSS算法和K-Means算法的对比实验证明,该算法对于论文文本聚类具有较高的分类正确率,具备一定的实用性。
其他文献
图像半色调化是一种广泛应用在图像处理领域中的影印技术。近年来随着高分辨率、大尺寸规模图像的应用,传统的图像半色调化串行算法已不能满足实时处理的需求。异构众核处理
随着Internet的快速发展以及信息技术在各个科学领域的普及,在同一科学领域的不同机构,数据的表现方式呈现出不同的特点,数据之间的共享以及集成成为对数据资源进行有效利用
随着互联网应用的发展和社会信息化的深入,需要处理的数据的规模和越来越大,传统的存储系统已经适应不了新的存储需求。由于基于DHT的P2P网络具有去中心化的资源利用和去中心
随着互联网的大规模普及和持续高速发展,成千上万的新闻网站应运而生并源源不断发布海量新闻网页。然而计算机程序并不能直接地理解新闻网页中哪些部分是新闻标题和正文,因而
目前,无论是数字化管理的需要还是后工业化进程的要求,都使我们日益面对以前无法想象的海量数据。虽然数据挖掘技术已经在医学珍断、市场与销售、图像筛选、负载预测等领域得
信息化建设初期,网络安全问题受到一定程度的重视,防火墙、防病毒网关、VPN、IDSIPS、身份认证、安全审计等设备被部署到企业网络中。然而,随着各项安全工作的深入开展,一个
多媒体技术和计算机网络的发展使人们更容易制作、存储和传输视频信息,如何有效地组织和管理视频信息,并能方便快捷地获取自己需要的信息,成了亟待解决的问题。基于内容的视
随着信息技术的进步,当今世界的现代海洋环境监测技术逐步向着高集成度、高时效、多平台、智能化和网络化方向发展,实时监测系统也应运而生。地球海洋学实时观测阵ARGOS是目
随着社会的发展,使用户对居住环境的安全度、舒适度和智能化程度的需求越来越高,使电网侧对于系统稳定性和电力质量要求不断提升,使社会对环境问题越来越关注,而智能家居的发
随着现代工业技术的快速发展,煤炭开采更加注重安全、高效。采煤机作为煤炭开采的关键设备,其安全、可靠、稳定的运行对煤炭开采作业有非常重要的意义。目前国内外主流采煤机