【摘 要】
:
随着互联网的不断发展,互联网信息呈爆炸式增长,如何从这些海量数据中快速、准确地获得关键信息变得十分有意义。关键词作为反映文章主旨的重要方式,成为用户对海量数据进行
论文部分内容阅读
随着互联网的不断发展,互联网信息呈爆炸式增长,如何从这些海量数据中快速、准确地获得关键信息变得十分有意义。关键词作为反映文章主旨的重要方式,成为用户对海量数据进行筛选、理解的有效手段。因此,在自然语言处理和信息检索等领域,关键词抽取技术得到了广泛的应用。传统的关键词抽取算法,主要是从文本中词语的某种统计信息进行考虑,忽略了文章的主题信息,未能从语义层面对关键词进行考察。并且由于传统方法在进行关键词抽取时,往往只考虑文本的某种特性,使得关键词抽取算法的效果仍有较大的提升空间。针对上述问题,本文提出了一种用于文本理解的高效关键词抽取算法。本文工作如下:1)针对关键词抽取时文档自身信息有限的问题,基于相似度的思想,提出了一种基于句子的文本信息扩充算法,算法以句子为基本单位,从相似文本中扩充有助于关键词抽取的句子进行信息扩充,增加文档的信息。2)针对关键词抽取算法准确度相对偏低、主题覆盖度不够理想的问题,提出了一种基于文本扩充与主题模型相结合的关键词抽取算法,算法将文档进行信息扩充,并结合文档的主题分布,进行关键词抽取。实验结果表明算法可以进一步提升关键词抽取效果。3)针对分布式主题模型训练算法存在的通信量大、迭代次数多的问题,提出了一种将分布式节点按照环进行通信的分布式主题模型训练算法,算法将分布式节点按照规则组成一个环,每个节点与环上的相邻节点进行通信。实验结果表明,算法可以以较低的通信量,进一步加快分布式主题模型的训练速度。
其他文献
该文论述了一个公安业务处理、档案管理和办公自动化相结合的公安数字档案系统设计方案,为未来公安内部管理信息系统全面解决方案提供了基础.该方案突破传统的客户/服务器结
该文主要对系统中的以下几个关键问题进行了探讨:1、该文对移动漫游话单的几种数据分发的方式进行了探讨.考虑到网络阻塞的现状和系统实时性的要求,该文提出了缓冲池的概念,
随着互联网的高速发展,大数据(Big data)吸引了各领域越来越多的关注。实际应用中的复杂高维数据,不仅对于计算复杂度和空间复杂度产生很高的要求,还会产生维数灾难(the curs
在三维编织复合材料预制件的研制和生产过程中,需要测量和分析材料的工艺参数。研制开发一套测量系统,实现准确、快捷地对三维编织复合材料的预制件进行厚度测量,对复合材料的质
该文从理论上介绍GSM网络性能管理的原理及概念,根据GSM网络维护及优化的需要,提出开发性能管理系统的目的和任务.结合中国GSM性能管理网网路组织,针对长沙地区目前GSM网络的
工程数据表是在工程规范、设计手册中大量应用的,用来表示数据之间关系,展示设计原理等最常用的方法,也是知识表示的常用方法.现有人工智能方面的成果对工程数据表的表示有一
本文系统介绍了江苏省高速公路收费系统设计及控制软件实现。探讨了当前流行的分布式计算模型以及分布式数据库的实现途径。有两种分布式数据库实现途径:(1)分布式事务;(2)复制。这
山东省公众多媒体通信网使用INTERNET的技术,可向社会公众提供INTERNET的所有服务.在山东省公式多媒体通信网内,该文采用OSPF的路由协议,设计了全网的路由策略.利用OSPF的度
近年来,随着互联网与智能移动设备的快速发展,以Twitter,微博等为代表的社交媒体应用变得越来越受欢迎,个人网站,博客,社交网站等应用每天会产生大量的信息,导致了严重的信息
该文提出了一种电子投票系统,它在吸取了以往电子投票方案的优点,摒弃这些方案缺点的基础上对电子投票协议的开票阶段进行了革新.使用了建立在Shamir密钥分存算法基础上的开