结合神经网络的文本语义相似度研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：lusx

【摘要】

：

【作者】

：

靳丽

【出处】

：

山东大学

【发表日期】

：

2019年09期

【关键词】

：

语义相似度 Bi-LSTM Attention DenseNet

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的发展和人工智能技术的进步,以及各类新业务、新需求的不断涌现,人们逐渐从信息匮乏走向了信息过载的时代。在当今这个信息爆炸的时代,人们迫切希望能够从海量的信息中获取与自身需要和吻合度更高的内容。为了满足人们的需求,多种应用应运而生,如搜索引擎、自动问答系统、文档分类与聚类、文献查重、文献精准推送等,而文本相似度计算技术就是其中的关键技术之一。近年来,文本相似度计算的研究受到的关注度越来越高,有研究学者对相关文献进行了整理,并总结了部分文本相似度计算方法。一般来说,文本相似度计算分为语义相似度计算和非语义相似度计算。传统的基于统计的文本相似度计算方法,如向量空间模型,隐含狄利克雷分布模型等。目前测量文本语义相似度常用的一种方法是利用word2vec等方法预先训练好的词嵌入,然后利用深度神经网络提取句子表征及其相互作用;接着,从表征和相互作用中训练出最终的多层感知器来适应文本语义相似度标签。还有一种方法是把句子长度和词汇相似度等多种独立于语言的特征信息综合起来,实现一个集成模型,但同时也需要更多的实时计算资源。本文在总结传统文本相似度计算的缺点以及借鉴近年来的文本相似度算法优点的基础上,针对句子级别的问题对进行文本语义相似度研究,提出了结合神经网络的文本语义相似度算法模型。该模型工作过程可如下描述:首先对文本数据进行预处理,训练词向量,该模型的词嵌入由不可训练的词嵌入,随机初始化的词嵌入,随机初始化的字符嵌入以及精确标识符四部分进行连接操作而得到;然后利用堆叠的Bi-LSTM神经网络和Attention机制的有效结合,每一层都使用连接注意力特征的串联信息,以及前面所有堆叠层的隐藏特征,对句子进行编码,获取更加丰富的句法和语义信息,继而通过句子匹配层,获取两个句子的交互信息,然后输入稠密连接的DenseNet网络层中解码,提取特征信息,最后经过全连接层分类,计算两个句子之间的语义相似度。本文模型的亮点在于(1)在词嵌入层采用了不可训练的Glove词嵌入和随机初始化的词嵌入拼接操作使得词嵌入的效果更好,并提升了模型效果:(2)采用了堆叠结构的Bi-LSTM神经网络,同时句子1和句子2的Bi-LSTM权重共享,即有Bi-LSTM1=Bi-LSTM2,并引入DenseNet网络的思想,当前层的输入不仅包括前一层的隐藏状态,还包括前一层的输入,通过参数的传递,一定程度上使得模型保留了前面的特征信息,增强了特征信息的传播;(3)引入了 Attention机制,不仅考虑了句子内部单词与单词之间的信息,同时考虑了句子1和句子2之间的交互信息,获取更加丰富的句子语义信息;(4)在Bi-LSTM对句子进行编码阶段,引入了 Autoencoder,随着网络的堆叠,拼接操作导致网络参数不断增加,通过Autoencoder进行降维操作,维护了网络的稳定,并提高了模型准确率;(5)在句子解码阶段,我们引入了 DenseNet网络,由于DenseNet网络结构的特点,增强了特征信息的传播,减轻了梯度弥散带来的问题,同时大大减少了参数量,使得网络更深入、更准确:(6)对交叉熵损失函数进行了正则化,避免了模型出现过拟合的问题。

其他文献

从玩票到营销——现代服装设计中跨界设计现象与行为探析

跨界并不是新生现象,现代服装行业中跨界现象与行为也层出不穷,且形式表现多样,既有服装设计师或品牌与艺术家的不同职业之间,也存在与大众服装品牌与大牌设计师之间,还有服

期刊

服装设计跨界营销

关于制定《侵权责任法》的若干思考

制定《侵权责任法》应重视对受害人的法律救济，贯彻有损害就有救济的立法理念。《侵权责任法》应具有足够的开放性，容许有其他形式法律规则的嵌入。《侵权责任法》应统一损害赔

期刊

侵权责任法立法理念开放性

用残余油微观分布状态探讨剩余油含量

以国外的“残余油微观分布状态”的实验结果为依据,结合王场油田中子寿命测—注—测的残余油孔隙度特征,在该油田建立起“砂岩粒度模式”。为进一步研究剩余油含量,建立了浅

期刊

砂岩模型电阻率残余油剩余油饱和度

浅析新消费时代下商业地产创新发展思路

新消费时代,中国城市商业地产迎来新变化:城市商业地产被不断重新定义、重添功能,城市商业地产版图也被不断重新书写、重赋价值。如何实现城市商业地产产业升级、提质增效,本

期刊

城市次中心商业地产新消费时代消费升级文旅高地产业升级

运用价格杠杆保护水资源初探

水是生命之源,其重要性不言而喻,然而中国未来将面临缺水的重大难题,水资源短缺的＂水危机＂迫在眉睫.文章认为,必须实行水价格改革,充分运用价格杠杆来保护水资源.构建科学的水

期刊

水资源保护水价改革

基于“大广赛”的影视广告制作课程教学实践探索——以浙江横店影视职业学院影视广告制作课程为例

影视广告制作课程是影视动画专业的专业必修课,着重培养学生的创新创意能力,掌握影视广告制作和项目管理的能力.本文以浙江横店影视职业学院影视广告制作课程为例,探讨基于"

期刊

“大广赛”以赛代练教学成果

肇庆星湖绿道使用状况调查及评价

运用使用状况评价（POE）研究方法,从使用者角度研究城市绿道休闲。通过调查绿道使用者各类休闲活动、问卷调查及数据统计分析等形式,归纳总结肇庆星湖绿道的使用规律和基本特征

期刊

城市绿道POE肇庆星湖

论债务危机背景下欧盟与“金砖四国”的双边经济关系

欧洲债务危机的爆发,使欧盟与＂金砖四国＂的双边贸易额迅速下降,影响了两区域间的贸易结合系数,特别是欧盟与中国的贸易结合度也大幅下降。但是,这对于＂金砖四国＂的一部分出口企业

期刊

欧洲债务危机欧盟金砖四国双边经济关系

深入推进农业供给侧结构性改革加快培育上海农业农村发展新动能

为认真贯彻落实中央农村工作会议和2017年中央1号文件精神，结合上海实际，笔者以为2017年上海推进农业农村工作，要全面贯彻落实中央经济工作会议、中央农村工作会议精神，坚持用发

期刊

农业供给侧结构性改革“三农”工作农业农村发展休闲农业与乡村旅游农产品加工农村产业发展土地承包经营权农业龙头企业家庭农场新动能

社会.生态.经济复合系统解析

社会.生态.经济复合系统是由社会系统、生态系统和经济系统耦合而成的复合型系统,科学地解析其结构要素及结构功能关系,对于正确认识和深刻理解社会.生态.经济复合系统的整体

期刊

社会系统生态系统经济系统复合系统社会生态经济系统

结合神经网络的文本语义相似度研究

其他学术论文