论文部分内容阅读
如今,互联网的发展日新月异,人们在日常生活中越来越离不开网络,互联网正逐渐变为人们接收和传播信息资源的主要媒介。然而,丰富的互联网资源给人们生活提供方便的同时,也要求人们耗费极大的时间成本去分辨出自己所需要的内容,过量的信息给人们带来的问题日益严重。而自动文摘技术通过计算机来对文本信息进行自动提炼和压缩,大大的降低了阅读成本,逐渐成为了应对海量网络信息所带来的困扰的最为行之有效的方法。自动文摘技术一经提出便吸引了世界上源源不绝的学者来进行研究,其实现方法也随着历史的进程逐渐进步、成熟,具有着不可估量的应用前景。本文主要通过对自动文摘技术发展历程中的各种实现方法的调研与分析,尤其是对基于TextRank算法的自动文摘方法的深入研究,发现TextRank算法在进行图模型构建和句子相似度计算时未能充分的利用句子中的文本特征,存在很大的改进空间。进而提出改进的基于TextRank算法的自动文摘算法,主要在进行图模型构建和句子相似度计算时综合考虑更多的文本特征,例如线索词,句子的位置信息,文本主题等,而不是简单的基于统计学方法。然后在NLPCC 2017中文摘要数据集上结合ROUGE评价指标设计相关实验,验证了本文提出的自动文摘算法的有效性。最后,基于本文提出的自动文摘算法,设计并实现了自动文摘Web系统,主要包括自动文摘算法实现过程及结果的展示,同时基于由互联网爬虫爬取的百万级文本数据实现了文本检索功能,搜索结果以文本标题加自动摘要的形式展现,降低用户的阅读成本。本系统旨在让用户能够在网页端体验自动文摘技术的实现过程以及基本应用。