基于深度学习的中文文档自动摘要方法研究

来源 :东北林业大学 | 被引量 : 4次 | 上传用户:cppgreate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技水平的进步及互联网的不断深入发展,互联网上各种各样的信息堆积如山,并且每天以惊人的速度快速增长。此背景下,如何快速便捷的在海量的互联网信息中提取感兴趣的知识成为了信息时代最亟待解决的问题之一。自动摘要是有效解决这一问题的关键技术。通过对海量的互联网文本信息进行自动摘要,能够有效提高用户浏览和获取信息的效率,从而为人们快速解决生活和工作中遇到的问题提供有效的信息支持。  近年来,深度学习技术兴起并蓬勃发展,深度文本表示模型也受到了国内外研究者们的广泛关注,这为自动摘要技术的进一步发展奠定了基础。由于传统文本表示模型存在无法充分提取文本语义、语境、语法等信息的缺点,本文在引入深度文本表示模型Word2vec和Doc2vec基础上,在两种不同的文本数据类型上分别对经典的文本自动摘要技术进行了研究和改进,主要内容如下:  (1)针对论文单文档文本,提出了一种结合Doc2vec和改进聚类算法的自动摘要提取方法。对从中国知网获取的论文文本数据,引入Doc2vec文本表示模型,在充分考察语句上下文的语义、语法等信息基础上实现语句的向量化表达;结合密度和距离两种度量确定K-means聚类算法的初始聚类中心并对语句向量进行聚类,以弥补原方法因随机选定初始中心导致的聚类结果不稳定的缺陷;在每一个类簇内部抽取具有最大信息熵的语句作为该类簇的中心句,完成自动摘要的抽取过程。  (2)针对新浪微博多文档文本,结合Word2vec能够充分提取词汇上下文的语义、语法等信息的优势以及主题模型在多文档文本聚类效果方面的优秀表现,将二者优势互补,提出一种基于加权主题分布表达的文本向量化方法并应用在自动摘要过程中。该方法利用Word2vec训练词向量,然后将词向量聚类成主题词类;以主题词类为特征,根据微博语句相对于主题词类的隶属度和主题词类自身的权重得到微博语句的加权主题分布表达。通过K-means聚类微博语句向量并提取具有最大信息熵的句子,从而实现自动摘要的抽取。  实验结果显示,相对于传统的自动摘要提取方法,由本文方法生成的自动摘要能够更有效地表征文档的主要思想内容,在准确率、召回率和F值上都取得了更好的效果,在一定程度上提升了中文文档自动摘要的效果,这为在其他应用领域实现更好的自动摘要提取提供了一定的借鉴。
其他文献
摘 要:《喧哗与骚动》是美国南方文艺复兴最杰出的代表人福克纳的代表作之一,尽管种族问题还不是该小说的中心主题,但福克纳却塑造了迪西尔这样一个极为重要的黑人女性人物。本文以奴隶制解放后南方重建时期为切入点,探讨迪尔西主体性的转变,从而更好地定位南方重建时期黑人女性的地位以及生存状态。  关键词:《喧哗与骚动》;迪尔西;主体性  [中图分类号]:I106 [文献标识码]:A  [文章编号]:1002-
随着我国民办高校的快速发展,民办高校图书馆服务工作创新重要性也在不断凸显,作为民办高校教育体系的重要组成部门,图书馆服务工作直接关系到教学水平与质量.作为图书馆工作
笔者根据实际工作经验及相关文献资料的记载,详细的对西部欠发达地区图书馆建设领域中存在的问题进行分析,并提出一些应对方法,以前可以在日后相关工作人员对这个问题进行分
随着科学技术水平的提升及信息化技术的推广,计算机对于各行各业的工作所起到的重要作用不言而喻.经济的发展导致电视台与企业间的业务往来交流更加紧密,仅仅依靠人力进行大
随着社会经济的发展,人们在物资生活水平不断提高的同时,对精神生活的需求也越来越高,越来越多的人开始重视学习,提高自身的知识水平和文化修养,群众文化工作的重要性更加凸
随着社会的发展,图书馆作为重要的信息生源地,发挥着重要的作用,在当前的社会环境中,图书馆需要朝着适应性知识服务的方向发展.知识服务是一种新的管理方法,在图书馆发展中的