基于TextRank算法的自动文摘系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:jieean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,互联网的发展日新月异,人们在日常生活中越来越离不开网络,互联网正逐渐变为人们接收和传播信息资源的主要媒介。然而,丰富的互联网资源给人们生活提供方便的同时,也要求人们耗费极大的时间成本去分辨出自己所需要的内容,过量的信息给人们带来的问题日益严重。而自动文摘技术通过计算机来对文本信息进行自动提炼和压缩,大大的降低了阅读成本,逐渐成为了应对海量网络信息所带来的困扰的最为行之有效的方法。自动文摘技术一经提出便吸引了世界上源源不绝的学者来进行研究,其实现方法也随着历史的进程逐渐进步、成熟,具有着不可估量的应用前景。本文主要通过对自动文摘技术发展历程中的各种实现方法的调研与分析,尤其是对基于TextRank算法的自动文摘方法的深入研究,发现TextRank算法在进行图模型构建和句子相似度计算时未能充分的利用句子中的文本特征,存在很大的改进空间。进而提出改进的基于TextRank算法的自动文摘算法,主要在进行图模型构建和句子相似度计算时综合考虑更多的文本特征,例如线索词,句子的位置信息,文本主题等,而不是简单的基于统计学方法。然后在NLPCC 2017中文摘要数据集上结合ROUGE评价指标设计相关实验,验证了本文提出的自动文摘算法的有效性。最后,基于本文提出的自动文摘算法,设计并实现了自动文摘Web系统,主要包括自动文摘算法实现过程及结果的展示,同时基于由互联网爬虫爬取的百万级文本数据实现了文本检索功能,搜索结果以文本标题加自动摘要的形式展现,降低用户的阅读成本。本系统旨在让用户能够在网页端体验自动文摘技术的实现过程以及基本应用。
其他文献
农村体育产业以及农村休闲旅游产业的不断发展,为我国新时期休闲农业与民族体育运动的融合奠定了坚实的基础.本文从当前我国新时期休闲农业与民族体育运动融合发展的现状入手,对休闲农业与民族体育之间的关联进行分析.针对二者融合发展过程中暴露出的部分问题提出了在今后融合发展的思路,笔者认为,我国休闲农业与民族体育运动融合发展的关键在于明确相关项目的制定原则、建立并完善文化传承机制、拓宽相关产品等.
在21世纪,对个人信誉数据的需求渗透在各个方面,而传统的信誉数据获取方式费事费力,如何提高数据获取的效率、保障获取的数据的准确性与完整性至关重要。本文提出了基于属性分片的信誉区块链设计方案,主要工作为如下三个方面:首先,本文使用区块链和基于属性加密提出了一个信誉数据方案的框架。通过基于属性加密控制数据获取粒度保障数据的完整性,采用密文哈希上链的方式保障数据的准确性。本文设计了信誉数据获取各方实体与
伴随着装备设计方案选型需求任务的不断拓展,所需资源投入不断增加,针对装备方案优选的信息决策理论框架以及相关服务开发的研究开始大量涌现,决策方案的结果将对未来一段时间方案的发展产生影响,科学化决策方案的重要性日益突出。组合分析框架是在复杂条件下进行方案优选的基础理论支撑,对此框架的研究会直接影响决策方向,在当前瞬息万变的信息和多元复杂的环境条件下,对于实现方案的鲁棒性和自适应性意义深远。虽然目前已有