面向开放域文本问答系统关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:qmail03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开放域文本问答是自然语言处理(NLP)中一个具有挑战性的任务,基于维基百科等语料库,对于给定问题,通过信息检索和文本处理,给出由词语或短句构成的答案,相关技术近年来成为学术研究的热点。本文基于深度学习神经网络模型,对基于事实类型问题的开放域文本问答任务进行了研究,概括而言包含两方面的创新点:首先,文本问答系统排序模型通过计算问题与候选段落的相关性得分进行排序,现有模型方法存在两个问题:(1)模型的搭建以词嵌入为基础,语句层级语义融合程度不足;(2)模型在计算生成段落表示向量时方法过于简单,造成语句权重信息丢失。针对以上问题,本文提出一种基于句向量编码的语义匹配排序模型(SBSMR),能有效提升排序模型的性能。其基本思路是:(1)以句向量编码替换词嵌入表示,在语句层级强化自身上下文语义信息融合和问题信息交互;(2)创新段落表示向量生成函数,综合考虑段落内不同语句在语义表达上的权重差。实验结果表明,提出的方法能有效解决现有排序模型中存在的两个问题。在问答公开数据集Quasar-T和SearchQA上,SBSMR排序模型分别取得了 11%和17%的召回率性能提升。此外,论文以SBSMR模型为基础,搭建问答系统框架,在两个数据集上分别取得了 14%和24.4%的整体性能提升。其次,现有排序模型和问答系统预测时消耗时间长、所需内存大,本文提出通过压缩句向量维度的方式减小内存消耗,同时尽可能减少性能下降。现有的压缩降维方法存在两个问题:(1)神经网络压缩模型在压缩幅度较大时存在明显的性能下降;(2)传统的降维方法忽略上下文语义,造成信息缺失,导致性能下降。针对以上问题,文本提出一种融合神经网络压缩模型和传统降维方法的两级编码压缩方法。其基本思路是首先使用神经网络压缩模型进行一级压缩,融合语义信息,将句向量压缩至中间维度;其次使用主成分分析降维方法进行二级压缩,加大压缩幅度,将句向量压缩至最终维度。实验结果表明,提出的方法能有效解决现有排序模型中存在的两个问题。将句向量压缩至原始维度的12.5%时,在Quasar-T数据集上SBSMR排序模型可以保持95%以上的性能。同时,在SentEval句向量编码能力评测数据集上,两级编码压缩方法也取得了较好的整体性能。
其他文献
量子霸权是量子计算发展中的里程碑,代表着量子计算装置的计算能力在某些特定问题上超越了最快的经典计算机,是量子计算研究领域的一个重要课题。玻色采样模型是实现量子霸权的有力候选实验,其对应的数学问题是一个经典计算机难以求解的采样问题,而其物理实现只需要全同光子、线性光学网络以及被动的探测,因此相对于通用量子计算机更容易实现。在玻色采样的相关研究中,玻色采样验证问题,是玻色采样的实现中的一个重要问题。然
高性能计算(High performance computing,HPC)在航空航天、天体物理学、生物医学、气象、材料科学、核工程等科学研究和工程技术领域无一不发挥着重要作用。粒子输运模拟就是其中的一项重要应用。自上世纪三十年代中子被发现后,对于各类微观粒子的研究就一直持续不断。粒子运输理论已经被应用在天体物理、核物理、医学放射性治疗等重要领域。粒子输运方程(Boltzmann方程)是描述粒子传输
随着无线网络的普及,海量的异构终端设备不断接入互联网,数据类型变得更加复杂多样,数据量急剧增加;同时,智能家居、智能网联车等大量新型应用的涌现对服务的时效性提出了更高的要求。边缘计算作为一种新型的计算模式,在靠近用户或者数据源头的网络边缘侧,融合网络、计算、存储等资源为用户提供更加实时的服务。由于用户具有移动性,为了满足服务的低延时要求,边缘计算平台需要将承载服务的虚拟机迁移至距离用户更近的边缘服
随着测绘设备和技术的发展,用于进行数字地形分析的DEM数据规模不断扩大,部分分析方法的计算效率相对较低,处理时间过长。虽然已有大量研究致力于提高数字地形分析效率,但相关成果通常难以充分发挥现有计算机集群的优越性能,且对分析算法的优化不足。并行计算和算法优化是解决现有问题的两种有效方法。本文以数字地形分析理论及实际问题为基础,具体从算法优化及性能提升出发,着力提高数字地形分析效率。根据数字地形分析实
经过数十年的飞速发展,全球导航卫星系统已成为提供位置、速度和时间信息的重要空间基础设施。GNSS接收天线或天线阵作为导航接收机的首个器件,其性能指标对整个接收机的性能起到了至关重要的作用。其中,广泛应用于各类监测站的高精度GNSS天线,常常需要配备天线罩加以保护,而天线罩的引入会对高精度天线性能产生不可忽视的影响;作为目前卫星导航接收机最有效的干扰抑制手段,抗干扰天线阵通过控制自适应权值对各阵元方
近年来,随着人工智能领域的飞速发展,越来越多的智能化技术被广泛应用于各项产业中。其中,无人驾驶技术代表了高新技术的发展水平,在民用和军事领域都具有广阔的应用前景。军用地面无人平台作为新型作战力量,在未来的信息化战场上将发挥关键作用。班组支援型无人车是其重要发展方向之一,可用于运输物资设备并与班组成员协同工作,有利于减轻班组人员负担,增强其持续作战能力。要实现上述功能,前提条件是要实现无人平台对于巡
在几何量测量中,角度测量一直是其重要分支之一,圆光栅作为最常用的一种精密测角传感器,在静态测角领域早已具备很高的测量水平,但在对测量实时性要求很高的应用中,传统的圆光栅静态测角技术却无法兼顾测角精度与测量速度两大需求,测量时刻的不准确为动态测角结果引入较大误差、降低动态测角精度。因此,消除该误差并将其作为提高圆光栅动态测角精度的重要技术手段具有较高研究价值。本文通过了解国内外动态测角技术发展现状、
星载平台电子侦察技术因侦察范围广、不受国界限制等受到各航天大国的大力发展。目前,各类长航时无人机、战斗机、预警机等在运动过程中,其机载雷达和卫星通信设备发出的信号也可能被卫星截获而被定位。由于其运动速度快且在三维空间中运动,单个卫星如何实现对空中动目标辐射源的定位与跟踪,是航天电子侦察领域的热点问题。为了提高侦察灵敏度的同时降低卫星载荷的体积和重量,本文提出利用一个大口径天线联合多个小口径天线构成
水流量标准装置是流量单位量值统一与传递的标准,能完成各种类型流量计检定、校准及科学研究等工作。本研究对水流量标准装置进行自动化改造,运用先进控制技术对流量进行调节,设计自动控制系统实现流量计检定、校准过程自动化,提高标准装置计量工作的效率与准确性。具体研究内容如下:(1)基于标准装置现有结构,在测试管段中加入电动调节阀,取代原装置中手动调节阀对流量的调节作用。对测试管段内流场进行仿真分析,探讨电动
逆合成孔径雷达(ISAR)成像通过得到目标的二维高分辨率图像,从而实现对目标的探测和识别,并且其远距离、全天候、全天时等特点,使得其广泛应用于各领域。ISAR三维重构技术又是ISAR成像领域的一个重要且热门的研究方向。若能对目标进行三维重构,将可以获得目标更丰富的信息,极大的提高目标探测、分类及识别水平。本文主要针对基于ISAR图像序列的三维重构技术进行研究,本文研究的主要内容包括下列几个方面:第