基于卷积神经网络的中文自动文摘方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ZWCSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今互联网上的数据激增,大数据时代大规模长文本数据的自动文摘,对人们能够从海量数据中快速获取所需的信息意义重大。以往对自动文摘的研究大多集中在小文本数据集上,而大规模长文文摘数据集的缺乏又限制了深度学习方法在自动文摘任务中的应用,难以满足当前大数据时代的需求。针对此现状,本文基于构建的大规模数据集,通过基于卷积神经网络模型和LSTM模型的深度学习方法,实现了对中文长文本摘要的自动获取。针对以往大规模长文文摘数据集缺乏影响中文长文自动文摘任务技术研究的问题,本文通过对网络数据进行调研,以新浪微博为平台,建立了微博爬虫和网页正文提取算法。通过对媒体用户发布的带有链接的微博内容进行爬取,并用正文提取算法将微博对应链接的原文内容提取出来,进行去噪过滤后,最终构建了一个具有20万对微博和对应原文的大规模中文文摘数据集,针对实验过程中要用到的数据标注,本文还构建了一个能够同时将原文和对应微博共有词进行高亮显示的标注系统。针对以往自动文摘获取方法效率低、性能差,难以满足当前大数据时代大规模文本自动文摘任务的问题,本文基于自主构建的大规模数据集,对深度学习在自然语言处理领域的应用技术进行了深入研究,提出了基于LSTM模型和基于卷积神经网络的深度学习方法,实现了对中文长文本的自动文摘获取任务。对于LSTM模型的方法,将原文和原文句子分别以词向量的形式作为两个序列输入到LSTM模型中,通过LSTM单元层和均值池化层的计算处理,得到两个能够表征原始序列语句语义的特征向量,在逻辑回归层进行两者匹配的概率计算后,根据概率高低确定文章摘要。对于卷积神经网络方法,分别将原文和原文中的句子用词向量矩阵表示,两者通过卷积神经网络的卷积和最大池化操作,最终得到能够表征各自语义信息的特征向量,通过非线性的全连接神经网络对两个特征向量的组合匹配进行打分,根据分值高低确定文摘句。为了验证文中所提方法自动获取文摘的性能,本文从构建的数据集中人工标注了1000篇原文和对应微博用于各实验方法的测试,并采用自动文摘的ROUGE评价方法对测试结果进行评价。评价结果表明,相比于传统方法,深度学习方法在文本语义表示上具有很大的优势,基于卷积神经网络方法所得实验效果更胜于基于LSTM模型方法,使得文摘的智能型和质量得到了一定提升。
其他文献
农村大学生就业问题是转型期的中国市场化、城市化发展的产物。近年来所暴露出来的农村大学生就业难问题,是我国现在"知"本的阶级上层流动功能弱化、教育制度与社会发展不适
与传统的脉冲电流法相比,宽带测量方法可以获取更多的局部放电信息,有助于提高测量的灵敏度和抗干扰能力。研究了基于宽带脉冲电流法的局部放电检测中的脉冲定量技术,介绍了
介绍了套管绝缘状况的主要参数、电容量和介质损耗因数的检测原理与方法,概述了套管绝缘在线监测装置的特点,最后分析了传感器自身的误差、环境因素、偶然因素对在线监测数据
<正>据了解,雨雪天气给交通带来的影响最大,大雪天气更为严重。爱车一夜之间都被冰雪覆盖,如何清除大雪,如何在雪后清洗车辆以及雪后对爱车如何保养,是不少车主关心的话题。
目的探讨实施舒适护理对老年股骨转子间骨折保守治疗患者相关并发症的影响。方法选取2014年3月—2017年3月惠州市博罗县人民医院骨科老年股骨转子间骨折保守治疗患者50例,随
环境保护问题是近年来全球范围内普遍关注的问题,随着工业社会的不断发展,世界范围内的环境问题日趋严重,资源的日益短缺给世界各国的生态保护工作敲响了警钟。随着我国可持
在行业渐趋理性,高端产品市场占有率越来越高的大环境下,高效节能、恒温、舒适优势的变频产品必然会迎来新的发展机遇。
目的:探讨单孔一针法腹腔镜疝囊高位结扎术的安全管理措施。方法:回顾分析为300例患者施行单孔一针法腹腔镜疝囊高位结扎术的临床资料。结果:所有手术均顺利完成,患儿安全返
土地的身价一再飙涨,促使建筑向高处求发展,移动通信需求与楼宇管理难度也随之高涨。一个数字化、标准化设计的专用对讲机通信网室内覆盖系统,即便超高层建筑也适用,或许是不错的
信用评级机构在如今的金融市场中有着非常重要地位,随着债券等金融产品日趋复杂化,投资者越来越依赖信用评级机构用简单的评级符号去为他们的投资行为提示风险。可以说,评级