长文本语义相似度算法研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:aminhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
极速发展的信息技术和快速普及的移动终端促进了信息的传递,日益增长的文本数据成为人们了解信息的重要来源。文本语义相似度计算的应用场景越来越多,对短文本而言,信息检索中输入查询的问题返回最相关的答案,智能客服对话根据用户提出的问题从后台数据库中返回匹配的句子;而像段落这样的长文本则在新闻分类、抄袭判别、文章自动评分等方面有很多应用,具有一定的研究价值。自然语言处理技术的发展为计算文本相似度提供了方法,深度学习模型在短文本相似度任务上获得了良好的效果,然而已有方法在长文本应用的效果并不理想。这是因为和句子相比,段落在组成结构上更加复杂,因此段落的语义相似度计算难度更大。通过对已有方法的学习和总结,本文以段落为例,分别从段落的语义向量表示和段落文本摘要两个方面使用不同的算法计算段落语义相似度。段落由多个句子组成,每个句子又包含多个词语,因此可以认为段落的语义表示可以从句子的语义表示得来,基于这个事实,本文提出层次构建信息表示的方法获取段落向量,主要包含有单词编码、单词级注意力、句子编码、句子注意力组成,其中编码采用BiLSTM,注意力使用多头注意力机制,在最后使用CNN进一步提取语义特征,在得到段落对的向量后,通过计算两个向量间的余弦距离作为相似度的得分。相比于长短期记忆网络,本文的模型具有以下优势:(1)多头注意力可以从多个维度对序列数据进行特征的提取,并把多个维度的特征聚合作为最后的信息表示,还可以计算句子中任意两个词之间的语义关联度,这是传统的注意力机制无法得到的信息;(2)考虑到卷积神经网络在局部特征提取中的作用,在句子编码后使用卷积神经网络进一步提取局部特征。段落维度高、文本上下文跨度大的特点导致计算难度增大,如果可以将段落维度降低,就可以降低计算的难度。本文提出基于生成摘要的段落相似度算法,主要目的是对段落进行自动摘要,认为摘要可以表示段落的语义,这样段落间的相似度就转换为了句子对的相似度,利用已有算法可以很好解决。本文对已有的抽取式摘要和生成式摘要方法做了研究,提出基于层次结构的生成式文本摘要,利用encoder-decoder框架,在编码端对单词进行层次化编码,然后将得到的句子向量表示输入到BiLSTM进行选择,将新生成的句子级别向量作为中间语义状态,传递给解码端,解码端使用多层LSTM结合Attention进行解码。多层循环神经网络在一定程度上提高生成摘要的准确率,提高模型的泛化能力。
其他文献
输流管道系统不仅能给人们的生活和生产带来极大的便利,也会因管道的内部或外部因素引发水锤现象。水锤在弹性管道中具有明显的间断波特性,在粘弹性管道中由于粘弹性的粘滞作用和延迟作用,会将激波抹平,但粘弹性项的增加会使得控制方程在特定边界条件非线性增强。因此,需要一种既能稳定地处理水锤的间断波问题,又能简便高效地解决粘弹性项的数值方法。本文采用一种新发展的无网格法——有限积分法,数值模拟弹性和粘弹性输流直
锁相环应用的多样性使其在各芯片系统中无处不在,例如作为时钟生成器产生数字电路工作所需的方波信号、或在通信系统中用来进行频率调制与解调。本文所设计的锁相环应用于背
微波滤波器是射频收发前端重要组成部件,现代通讯技术的发展对滤波器提出了高性能、小型化的需求。基片集成波导(SIW)具有品质因数高、传输损耗低、功率容量大、易于集成和成
近年来,社会安全建设成为人们最为关注的热点话题,安防摄像头在公共区域的大量普及。面对海量的监控数据,已经很难通过人工方式来获取、分析、整理所需要的信息。行人重识别
软件调试包括判断故障来源、分析并修复故障等工作,其中错误语句定位是修复程序故障的重要前提。传统的错误定位需要软件调试人员手工完成,为了降低修复过程中的人力成本,程
上海作为中国最大的工业城市,经过近几十年的高速发展所带来的重金属累积效应,使土壤中的重金属含量显著增加,污染情况也日趋严重。本研究以上海市蕰川公路沿线、吴泾火电厂和老港垃圾处置场为样点,利用ICP分析了样品中As、Cd、Cr、Cu、Pb和Zn的含量,并运用单因子污染指数、内梅罗综合污染指数和潜在生态危害指数分析了土壤中重金属的污染状况,以便筛选出适宜上海市重金属污染区种植和修复的木本植物。并利用沙
金属卤素钙钛矿材料得益于其光谱可调,荧光量子产率和色纯度高,以及适用于简单的溶液法制备等诸多特性,被人们广泛应用于钙钛矿发光二极管(PeLEDs)的制作,具有巨大的应用潜力
夹层板结构凭借其优越的力学性能,在众多工程制造领域引起了广泛的关注,其中在船舶工程和航天工程等领域最为显著。作为一种新型板材结构,其比较典型的结构特点是轻量化、板架形式简单,由于有些夹层板芯层为特殊材料或结构,所以吸能性能显著,且抗疲劳、抗腐蚀,同时空间利用率高,并且具有滤波、抗冲击和减振降噪等优点。在船舶制造中,为简化由于船体骨架和板材特殊的布置方式导致的复杂结构形式,常常使用夹层板结构从而有效
土体经过沉积作用后,表现出结构性,使之与重塑土特性有差异。工程上结构性土的压缩屈服过程受应变速率及加荷速率影响。本文选取福州市仓山区与马尾区天然沉积土,通过对原状
光电导天线、量子阱光电探测器等太赫兹源和探测器的出现,极大地促进了太赫兹技术的发展。近年来,太赫兹技术已经被广泛应用于生物医学、无损检测、环境监测、安全检查、无线