基于深度学习的文本语义匹配研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jiaozhixuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化时代的到来,人们在问答系统、智能客服、信息检索、文本复述、机器翻译等人工智能领域的需求日益增长。为了提供高质量、高效性的服务,无数学者投入到文本语义匹配的相关技术研究中。作为自然语言处理领域的一项基本问题和研究热点,过去文本语义匹配问题的相关研究主要是基于统计机器学习技术的。该类语义匹配模型需要消耗大量的人力成本才能挖掘出文本潜在的特征。随着深度学习技术的日新月异,文本数据的特征提取不再是一个难题,越来越多的学者把重心放到了基于该技术的文本语义匹配的研究当中。本文对比分析了一些主流的深度匹配模型。针对这些模型所存在的不足之处,本文提出了多信息交叉融合的文本语义匹配模型与最优权重模型融合算法。本文的主要工作包括:(1)本文提出了多信息交叉融合的文本语义匹配模型(MICF),该模型是在多粒度语义交叉模型的基础上进行改进的。针对多粒度语义交叉模型在交互匹配过程中部分语义特征丢失的问题,该模型通过依此构建多信息交叉融合的嵌入层、语义交叉层和特征提取层来提取文本的词重要性、前后文信息、字粒度、词匹配重要性和词位置等多个维度的特征信息。实验结果表明,相较于其他语义匹配模型,MICF模型在两个中文语义匹配数据集上的语义匹配效果更好。(2)本文提出了最优权重模型融合算法(OWBlending),该模型是在Blending集成算法的基础上进行改进的。针对Blending集成算法无法综合考虑到各个基学习器的学习表现能力,且原始文本数据特征丢失等问题,OWBlending集成算法通过一种“基于神经网络的加权学习法”的组合策略去组合集成算法中各个基学习器的输出结果。该算法通过构建一个神经网络模块来学习原始文本数据的特征信息,并将其用来预测各个基学习器的最优权重组合。实验结果表明,OWBlending集成算法在两个中文语义匹配数据集上的语义匹配效果均优于Bagging、Stacking、Blending等其他集成学习算法。
其他文献
学位
在移动互联网带来了爆炸增长的数据的前提下,人工智能进入了飞速发展的阶段。但随着人们对数据隐私的日益关注,世界各国相关法案的出台和完善,如何在保护数据隐私的情况下,进行大数据研究已经逐渐受到学术界和工业界越来越多的关注。在这样的背景下,作为打破数据孤岛、释放人工智能应用潜能的机器学习技术,联邦学习无疑是当前最受工业界和学术界关注的研究方向之一。联邦学习主要解决了以下困境:一是由于互联网企业巨化,各个
目前,越来越多的文档以数字资源的形式呈现在互联网上。这些文档内容繁多、结构混乱,使得从这些文档中快速提取有效信息的工作变得十分困难。实体关系抽取作为实现信息结构化的关键技术,可以很好的解决这个问题,并在构建知识图谱、智能问答系统以及自然语言生成方面有着非常重要的作用。基于深度学习的关系抽取在关系抽取中有着比较不错的效果。但是基于深度学习的算法的数据预处理中添加了越来越多由自然语言处理工具得到的额外
随着我国信息科技实力的不断提升,网络空间中的内容极速膨胀,大量数据问题一涌而出,如:博客网站充斥了大量的抄袭内容,搜索出的内容重复性极高;智能客服对话系统需要根据用户提问从海量数据库中匹配到最相关的答案;网络云盘中的重复文件浪费了巨大的物理存储空间。解决数据爆炸增长所带来的各种问题是一项重要的研究,而文本语义相似度计算正是解决这些问题的必备技术。文本语义相似度计算是本文的研究主题。本文做了大量的研
学位
随着无人船集群技术的加速发展,海上无人系统的研发与训练也变得至关重要。有效的海上无人系统能够打破单船能力的局限性,协同集群中每艘无人船从而激发出整个集群的力量。然而训练海上无人系统需要大量且有效的无人船实验数据,无人船实验数据的获取不可避免地受到时间,环境,人力,财力等多种因素的限制,如何在短时间内低成本地获取海量训练数据将成为传统无人船训练系统一项新的挑战。本文经过对无人船训练系统的研究和分析,
学位
近年来,随着数据资源和计算能力的增长,机器学习快速发展,被应用到各个领域,例如:图像识别、行人检测、航空监管等等。在机器学习训练阶段使用的数据越多,则预测阶段机器学习模型精度越高。然而,海量数据的使用对本地计算资源带来了挑战。得益于云服务的应用,大量的机器学习的训练和预测都被外包到云服务器上进行。然而云服务自身数据安全事件频发,这加剧了公众对于数据泄露的担忧。为了解决云服务环境下机器学习中的数据泄
现如今,随着人们的生活压力和工作压力的不断提高,人们的健康问题日益凸显,据统计数据显示中国人民约70%的人处于亚健康状态,因此关注自身健康变得愈发重要。目前健康管理的理念逐渐走进人们视野,并且健康管理的国内市场也逐步火热。健康管理中比较重要的一部分就是营养摄入平衡,而人体每日所需营养中通过液体摄入的不占少数,例如水,维生素,蛋白质等,因此液体检测技术作为营养监测的一种途径显得尤为重要。液体检测技术
随着异构无人系统的应用越来越广泛,多机器人协同成为趋势,而异构多机器人协同的基础是要实现异构平台或设备的互联互通并进行有效的信息交互。但是由于执行协同任务的无人系统并非来自于同一生产厂商的同一型号,所以无人系统间建立互联互通就会带来诸多问题。比如最常见的由于无人系统间接口标准、数据传输方式以及能力的不同,使得无人系统表现出很强的个体异构性,影响无人系统的通信效率,为了屏蔽异构性,通常的实现方式是将