基于多任务学习的查询向量表示算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jack332904910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库系统理论研究与技术实践的快速发展,数据库系统的调优与维护日趋复杂,对各个子模块子任务的性能要求越来越高。在以深度神经网络为代表的统计学习方法于各个领域得到广泛应用的同时,将统计学习理论与方法应用于数据库系统任务的智能数据库系统成为了新的研究热门。智能数据库系统将统计学习模型应用于数据库配置的智能化、数据库优化的智能化、数据库设计的智能化等各个层次与角度,在大量具体任务上取得了新的指标突破。而在智能数据库系统中,一个常见但缺少专门论述的问题是,如何对于单个查询任务进行可靠而高效的表示,从而能够为查询优化、任务流序列建模、索引结构选择等多个智能数据库系统任务带来特征侧的提升。本文对于智能数据库系统中的查询任务表示算法问题,从样本生成、训练框架、多模态特征表示与融合、带有查询语句语言模型的多任务学习等多个角度进行了设计、实现与分析验证。在基础框架方面,本文设计并实现了一套可迁移的快速大量生成智能数据库系统预测任务所需样本的系统及智能数据库系统预测任务的训练与评估框架,在TPC-C标准数据集与Maria DB开源数据库的基础上,支持任意数量的随机、合规、高自由度的查询任务及样本的生成,能自动完成包括直方图特征解析在内的数据生产端特征预处理。在训练评估侧,本文在Tensor Flow开源框架内实现基于纯CPU计算组件的特征解析、模型训练与模型评估框架,从而得以支持本文涉及到的各类深度神经网络模型的快速开发与验证。在基础特征表示方面,本文通过深度神经网络领域的方法,对于智能数据库系统预测任务所必需的多模态特征设计了一套高度可扩展的表征与融合方案,使得预测任务所需的结构信息特征、语义信息特征、辅助稠密特征等都能够转化为深度神经网络所能够处理与分析的张量化形式;同时,设计并比较了三种不同的多模态特征融合方法,其中的辅助损失强制融合方法在数据集上有着明显优越的实验效果。在SQL查询语句的语言模型建模方面,本文实现并验证了12种不同的语言模型在SQL查询语言上的学习效果,并系统分析了各个语言模型的收敛性能与收敛位置,验证发现以门控递归单元(GRU)与长短期记忆模型(LSTM)为代表的门控递归神经网络模型对于智能数据库系统的SQL查询语言模型学习任务具有高度的适应性。在被过去研究忽视的智能数据库系统中的多任务学习问题上,本文针对语言模型融合防范特征泄露与常规任务损失平衡两个关键点,设计并实现了一套支持语言模型单向隔离的多任务学习结构框架,经过真实数据集上的检验,该系统不仅比三个独立的预测系统节省资源,更能够低风险地提高智能学习任务的收敛效果。总体上,本文针对智能数据库系统的查询表示问题,进行了多个角度的算法研究与系统实验,为后续基于查询表示的其他智能数据库系统带来了可靠的研究基础。
其他文献
机器阅读理解,作为人工智能的关键研究方向,目前广泛应用在搜索引擎、对话系统等领域,其目的是让机器像人类一样阅读和理解文本内容。在机器阅读理解任务的众多分类中,本文以片段抽取式任务作为研究的目标,即在给定问题和上下文的前提下,要求模型从上下文中找到某一连续片段作为答案。在深度学习的框架下,这类机器阅读理解任务通常包含四个关键阶段(文本表征、特征提取、问题-上下文交互与答案预测)。本文面向特定领域文本
压力传感器在航空航天、压力容器、汽车、油气管道和气象等领域应用极为广泛。但是在核电、冶金、化工、发动机监控等领域对压力传感器耐温性能有着较高要求,扩散硅压力传感器难以适应这些高温工作环境要求,因此高温压力传感器是当前研究的重要方向之一。目前采用硅-蓝宝石、硅-金刚石、4H-Si C和6H-Si C等特殊材料制造的高温MEMS压力传感器,耐温性能较好,但是其制造工艺相对复杂,成本较高。为此,本文设计
多机器人协同是完成复杂作业的重要手段,成为近年来的研究热点。然而当前考虑多为松耦合场景,即每台机械臂依据设定的时间序列独立完成各自的工作,并未考虑其他机械臂的运动情况,难以保证整体工作效率和执行效果。为有效提高复杂作业任务的作业性能,需要将多台机械臂作为一个紧耦合系统考虑,实现实时交互和智能协同。基于此,本文开展了多臂紧耦合系统的运动学建模、协同柔顺控制方法的研究,并研制轻型协作机械臂、建立实验平
海洋中蕴含丰裕的资源,探索海洋的意义重大。水下机器人作为探索海洋有效的工具,逐渐成为研究的热点。水下机器人可以代替人类进行水下作业,甚至突破人类水下作业的限制。为了安全航行和高质量作业,水下机器人必须要具备精确的水下目标检测和定位技术。由于在近距离范围内使用时,声呐容易受到干扰而精度降低,而视觉方法的精度高但存在图像质量下降的问题。而相机的标定是水下精确定位的前提。因此,本文针对浅水域的水下机器人
近年来,移动机器人得到了广泛的应用,尤其是轮式机器人。然而,特殊地形大大限制了轮式机器人的活动范围。相反,四足机器人运动更加灵活,可以通过各种各样的地形,例如台阶,废墟,障碍物等。因此四足机器人更适合救灾、山地运输、勘探等应用场景。由于更多的运动自由度,四足机器人的运动控制比轮式机器人更复杂。四足机器人的运动控制已经成为了最热门的研究课题之一。目前大多数四足机器人采用电机驱动,电机的位置伺服能够保
传销犯罪活动具有涉案主体复杂、涉案人数众多,涉案金额大等特点,对人民群众的切身利益、社会稳定和国家安全造成了不容忽视的威胁。多年来,传销犯罪活动屡禁不止。随着金融交易数据的快速增长,传统的依赖人工筛查分析的传销侦查手段面临效率低下的问题。因而,有必要研究高效的传销组织挖掘方法,以辅助经侦人员进行传销侦查工作。本文面向金融交易网络,从传销账户检测、传销组织发现、传销组织角色挖掘三个方面进行研究,主要
传统的脑中风手部康复是康复师对患者的手部关节进行放松训练,这种方式是非标准化的,其康复效果的好坏很大程度上是由康复师的专业水平素养决定。随着长时间的康复进行,康复师体能的不足也会直接影响康复效果。目前普遍采用的手功能康复机器人采用电机驱动刚性杆件带动手指关节进行被动的屈曲和伸展运动,这种刚性结构只能在专业的康复人员的陪同看护下使用且个性化定制成本高,而且存在安全隐患阻碍患者的康复意愿度,很难推广应
在当前严峻的国际形势下,高端军用器件的自主研发迫在眉睫。拇指力传感器作为武器装备操控手柄的核心器件,可完成飞行员拇指力的实时测量,辅助完成搜索、瞄准、定位等功能。目前国内重点型号武器装备上的拇指力传感器主要以进口美国、法国的产品为主,国内产品的灵敏度、可靠性与操控感均与国外产品存在差距,无法满足使用需求。在国内政策的支持与市场需求的刺激下,本课题研究了一款高灵敏度、高可靠性的拇指力传感器,同时该传
在现代化战争、多传感器协同作战的大背景下,利用信息化手段对弹道导弹真弹头进行有效识别,成为了提高反导系统作战能力、巩固国防的重要前提条件。将人工智能方法引入弹道中段目标,尤其是真假弹头目标的识别领域,可与经典信号处理方法相互补充,克服后者在不同观测条件下的识别率瓶颈。本文着眼于真假弹头的动力学特征差异,以深度学习为核心技术手段,开展了一系列研究,主要工作包括:(1)研究了真假弹头的运动形式及参数解
传统的火炮将火药燃气压力作用于弹丸,加速弹丸发射,由于气体的膨胀限制,传统的火炮弹丸发射速度几乎不能达到1300米/秒。电磁轨道炮是采用电磁发射技术,利用洛伦兹力加速弹丸,使弹丸能够达到超高速发射的装置,电磁轨道炮相对于传统化学能发射炮弹有着诸多优势。为了获得电磁轨道炮弹道多目标的最优化,需要对其进行多目标优化,然而电磁轨道炮的真实物理模型中含有不确定参数,不确定参数的波动会影响多目标优化的效果,