论文部分内容阅读
随着科技水平的进步及互联网的不断深入发展,互联网上各种各样的信息堆积如山,并且每天以惊人的速度快速增长。此背景下,如何快速便捷的在海量的互联网信息中提取感兴趣的知识成为了信息时代最亟待解决的问题之一。自动摘要是有效解决这一问题的关键技术。通过对海量的互联网文本信息进行自动摘要,能够有效提高用户浏览和获取信息的效率,从而为人们快速解决生活和工作中遇到的问题提供有效的信息支持。 近年来,深度学习技术兴起并蓬勃发展,深度文本表示模型也受到了国内外研究者们的广泛关注,这为自动摘要技术的进一步发展奠定了基础。由于传统文本表示模型存在无法充分提取文本语义、语境、语法等信息的缺点,本文在引入深度文本表示模型Word2vec和Doc2vec基础上,在两种不同的文本数据类型上分别对经典的文本自动摘要技术进行了研究和改进,主要内容如下: (1)针对论文单文档文本,提出了一种结合Doc2vec和改进聚类算法的自动摘要提取方法。对从中国知网获取的论文文本数据,引入Doc2vec文本表示模型,在充分考察语句上下文的语义、语法等信息基础上实现语句的向量化表达;结合密度和距离两种度量确定K-means聚类算法的初始聚类中心并对语句向量进行聚类,以弥补原方法因随机选定初始中心导致的聚类结果不稳定的缺陷;在每一个类簇内部抽取具有最大信息熵的语句作为该类簇的中心句,完成自动摘要的抽取过程。 (2)针对新浪微博多文档文本,结合Word2vec能够充分提取词汇上下文的语义、语法等信息的优势以及主题模型在多文档文本聚类效果方面的优秀表现,将二者优势互补,提出一种基于加权主题分布表达的文本向量化方法并应用在自动摘要过程中。该方法利用Word2vec训练词向量,然后将词向量聚类成主题词类;以主题词类为特征,根据微博语句相对于主题词类的隶属度和主题词类自身的权重得到微博语句的加权主题分布表达。通过K-means聚类微博语句向量并提取具有最大信息熵的句子,从而实现自动摘要的抽取。 实验结果显示,相对于传统的自动摘要提取方法,由本文方法生成的自动摘要能够更有效地表征文档的主要思想内容,在准确率、召回率和F值上都取得了更好的效果,在一定程度上提升了中文文档自动摘要的效果,这为在其他应用领域实现更好的自动摘要提取提供了一定的借鉴。