【摘 要】
:
文本转SQL(Text-to-SQL)是一项将语句转换为SQL查询的任务,该任务是自然语言处理中语义分析子领域的一个子任务。本文主要关注上下文相关的跨域text-to-SQL任务,该任务要求模型在训练集和验证集的数据库完全不一致的情况下能够依赖对话历史信息和当前语句生成对应的SQL查询。本文针对上下文相关的跨域text-to-SQL任务首先提出了基本上下文相关的序列到序列模型BCSQL。BCSQL
论文部分内容阅读
文本转SQL(Text-to-SQL)是一项将语句转换为SQL查询的任务,该任务是自然语言处理中语义分析子领域的一个子任务。本文主要关注上下文相关的跨域text-to-SQL任务,该任务要求模型在训练集和验证集的数据库完全不一致的情况下能够依赖对话历史信息和当前语句生成对应的SQL查询。本文针对上下文相关的跨域text-to-SQL任务首先提出了基本上下文相关的序列到序列模型BCSQL。BCSQL引入交互级别编码器来记录对话历史信息,并在解码器中加入数据库信息来解决跨域问题。此外,BCSQL在解码阶段利用注意力机制确定解码的每一步应该关注语句和数据库的哪些部分。虽然BCSQL相较于基准模型在性能上获得了一定的提升,但其仍存在较大的改进空间。本文基于BCSQL提出了带有引导机制的Guide SQL,引导机制在解码阶段采用剪枝算法删除与先前预测不相关的列和表来有效地避免表和列之间的匹配错误以及表和表之间的外键连接错误。为了提高表的预测准确率以提升引导机制的性能,本文提出了一种重排机制,针对5个预测概率最高的表生成其对应的SQL查询并进行排序来获取最符合当前语句的SQL查询。此外,本文在Guide SQL中设计了一种基于平均词向量的类型链接对语句和数据库的信息进行增强进而加强它们之间的联系。为了使Guide SQL能够关注到上一轮的SQL查询,本文在Guide SQL中加入了先前SQL查询注意力。为了进一步提升Guide SQL的性能,本文基于Guide SQL提出了PG-GSQL。PG-GSQL引入指针生成网络解码器代替Guide SQL的解码器,指针生成网络包含指针器和生成器。其中指针器用于从先前SQL查询中复制词,而生成器则用于从词表中生成新词。实验证明指针生成网络能够有效地捕获SQL查询的历史信息并重复利用先前SQL查询。此外,PG-GSQL使用基于LSTM的类型链接代替基于平均词向量的类型链接以获得更优的性能。在具有挑战性的上下文相关的跨域text-to-SQL数据集SPar C上,本文提出的最优模型PG-GSQL在验证集上达到了37.4%的问题匹配准确率和20.2%的对话匹配准确率。当使用BERT与微调的方式对词向量进行增强时,PG-GSQL在验证集上达到了53.1%的问题匹配准确率和34.7%的对话匹配准确率,在问题匹配准确率和对话匹配准确率上分别超过了当前的最优模型5.9%和5.2%。
其他文献
随着表皮生长因子受体抑制剂(EGFR)应用的愈加广泛,其不良反应的发生率亦随之升高,积极预防不良反应的发生具有重要的意义。皮肤毒性是最常见的不良反应,其发病机制不明确,中医药通过对癌毒病机的辨治及皮疹的辨析,从整体论治,并通过内服、外用相结合治疗,在临床应用中疗效显著,但各家论治角度不同,今就近几年各医家发表的辨治思路进行总结。
随着经济和科技的不断发展,目标检测技术也得到了长足的进步。常用的目标检测算法是利用目标图像与背景图像相减得到目标的区域,目标检测区域光照强度以及目标是否有遮挡等因素都会影响目标检测结果。检测出来的目标质量会对目标的识别、跟踪以及视频监控等效果产生影响。当摄像头处于低照度或者低能见度的情况时,例如雾天、雨天、夜晚等情况。传统目标检测算法存在检测精度较低,检测速度慢,目标漏检率高等问题。因此,针对上述
基于稀疏低秩表示的子空间聚类是有效处理和分析图像视频数据的重要技术,己广泛应用于机器学习和计算机视觉等领域。然而,对于序列数据,有效挖掘其时空信息是子空间聚类的一个重要挑战。本文从序列数据的类内样本相似性和类间样本差异性等特点出发,提出三种序列子空间聚类模型,具体如下:1.提出基于l1范数时序图的鲁棒序列子空间聚类。首先设计一种l1范数时序图对序列数据的时序信息进行编码,该时序图利用样本相关权值增
Sr2RuO4超导体是一种和铜氧化物La2CuO4结构相同的超导材料,并且很有可能是手征p波超导体,但是关于Sr2RuO4的配对对称性问题仍然存在广泛争议。自旋极化中子散射、μ子自旋弛豫、早期的核磁共振等实验表明Sr2RuO4是手征p波三重态配对,而在比热、超流密度、热导率等实验中又观察到能隙有节点,即d波的典型特征。在本文中,我们使用泛函重整化群(FRG)方法研究了Sr2RuO4的三轨道模型,并
超级电容器是一种能源转换和储存器,以其充放电速率快,循环寿命长,安全性高等特点,已受到越来越多研究者们的关注。炭材料因其比表面积大、导电性好而被广泛应用于超级电容器,但是单纯的炭材料应用在超级电容器时,电容性能不佳,因此研究出高电容性能的炭材料势在必行。由于氮原子的高电负性和良好的炭骨架相容性,氮掺杂炭材料具有良好的电化学性能。然而,在高温条件下炭材料中的含氮原子官能团易分解,制得的炭材料氮含量较
随着某试验需求的日益提高,现有的试验装置已无法满足实验需求。研制一套与某试验相适应的某试验装置,已经成为某试验的核心问题之一。本文在原有试验装置六自由度机构的基础上,重新改造并优化设计了一套某试验装置六自由度机构。并对装置的运动学、动力学、静态误差及振动误差方面进行研究。首先,本文介绍了原六自由度机构结构。根据某试验装置的技术指标要求,开展了原机构的强度及刚度分析。根据分析结果辨识出Z轴立板和X轴
针对椭圆型MEMS方程Δu=λ|x|α/up,x∈R2\{0}(0.1)其中λ>0,α>-2,p>0,本文研究了其满足u(0)=0的非负破裂解在全平面R2上的性态.首先,针对不同的(α,p),对稳态方程按照是否仅有平凡解进行了分类,并证明了方程(0.1)的解在原点和无穷远处分别收敛到稳态方程的某个解.从而,本文完成了破裂解关于(α,p)的渐近性态分类:如果该解在原点(或无穷远)处收敛到平凡解,那么
针对一类具有外部扰动的非线性系统,本文提出了一种自适应模糊跟踪控制方法.首先,利用模糊逻辑系统逼近系统未知的非线性函数,并设计了一个模糊状态观测器来估计系统的不可测状态.其次,通过指定性能函数,使系统的跟踪误差能够约束在指定范围内.然后,利用Backsteping方法结合包含对数函数的Lyapunov泛函,设计了一个基于事件触发条件的自适应模糊控制器.基于Lyapunov稳定性理论和tanh函数的
水稻是重要的粮食作物,世界上超过一半的人口以稻米为主粮;与其他粮食作物相比,水稻能吸收和积累更多的镉,降低稻米中的镉含量是保证食物安全的重要措施。我国南方不同程度的镉污染稻田占有较大比重,镉污染稻米事件时有发生,选育水稻镉低积累品种是水稻育种的重要目标之一。因此,发掘稻米镉低积累材料和相关基因是选育低镉积累品种的基础。本实验利用生育期和株高相当的两个亲本(R3551和R498)构建的重组自交系(R
日粮纤维是改善母猪繁殖性能及其后代生长性能的重要营养素。课题组及相关文章研究表明,妊娠期提高纤维摄入量,可提高仔猪断奶重和母猪泌乳期采食量,缩短产程。但仍有研究发现,妊娠期饲粮添加纤维对母猪繁殖性能无显著影响。造成结果不一致的原因可能是由于纤维添加类型的不同。不同纤维原料的不可溶性纤维(ISF)和可溶性纤维(SF)的含量不同,导致饲粮中的ISF/SF比例存在巨大的差异。研究证实,饲粮中的ISF/S