面向知识库问答的实体链接及关系预测研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:viggb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识图谱技术的发展与成熟,其作为一个结构化的知识库被应用到各个领域,尤其是在基于知识库的问答领域。知识库问答是其接受一个自然语言式的问句并经过语义理解后结合知识库返回答案,不同于传统基于关键字的检索式问答,知识库问答直接给出精准答案,不需要用户进行二次查找或推理,使答案获取方式更加简单高效。然而,目前知识库问答的整体准确率不高,其主要原因包括两点:实体名拼写不规范、问句上下文信息不足和知识库中实体描述信息缺失,导致实体链接错误率较高;问句的语义和结构错综复杂以及关系数量庞大,导致关系预测准确率较低。针对上述问题,本文开展了深入研究,具体工作与成果如下:(1)针对实体链接中实体名拼写不规范、问句上下文信息不足和知识库中实体描述信息缺失的问题,本文提出了一种多维度匹配的实体链接模型(Entity linking of multidimensional matching,MDM-EL)。MDM-EL模型首先进行字符串维度匹配,该维度将实体候选集调整为合理的大小;然后进行统计维度匹配,该维度利用实体显著性完成初步实体候选集的排序;最后进行实体属性维度匹配,该维度利用实体属性信息完成排序结果的修正,最终排名最高的实体即为实体链接的结果。实验结果表明,该模型在Simple Questions数据集上准确率达到了83.43%,高于近年来的state-of-the-art实体链接方法。(2)针对关系预测中复杂问句的语义抽取困难的问题,本文提出了一种基于自注意力机制的层次语义抽取关系预测模型(Self-attention based Hierarchical semantic extraction network,SA-Hse Net)。该模型采用编码器与解码器框架实现,是信息抽取与深度学习的结合。模型中编码器负责问句语义特征的编码,解码器负责关系语义的解码。为了加强模型的语义抽取能力,编码器将问句的语义特征分为局部浅层语义和全局抽象语义两个层次,同时为了突出两个层次的关键语义信息,分别采用自注意力机制和交叉注意力机制完成问句的编码。实验结果表明,该模型在Simple Questions数据集上的准确率达到了93.36%,且在时间性能上表现优异。(3)针对关系预测中原始关系集合数量庞大的问题,本文提出了一种关系限制子图法。该方法利用关系限制子图提取原始关系集合中的有效关系,形成有效关系集合,再从有效关系集合中筛选出关系。实验结果表明,该方法能将SA-Hse Net模型的关系预测准确率提高3%左右。本文提出的MDM-EL模型降低了实体链接的错误率,保证了答案主题的正确性。其次,SA-Hse Net模型和关系限制子图法提升了关系预测的准确率,保证了答案推理的正确性,同时SA-Hse Net模型在时间性能上表现优异,保证了知识库问答的实时性。将上述模型和方法应用到具体的知识库问答系统中,能为用户提供更精准的答案。
其他文献
立体视觉是通过模拟人类的双目视觉,获取环境深度信息的任务,它的原理主要是通过计算成像和数学建模预测物体在三维空间中的深度,以达到还原场景三维信息的目的。立体视觉作为计算机视觉当下最为火热的研究方向之一,被广泛应用在自动驾驶、虚拟现实、增强现实、三维测量与三维重建等热门领域。在计算机立体视觉中,最为常用的方法是双目立体视觉。双目立体视觉的难点在于如何正确建立双目图像之间所有像素的一对一的映射关系。因
精准农业以物联网为基础,通过部署传感器和研究人工智能技术来控制果实/农作物的生产过程,主要包括:农业产量估测、农作物智能化病害检测以及生长过程品质监控等,以更低的成本提升果实产量等级,经济效益更大化。当前,针对葡萄视觉产量预估的工作主要是从基于检测的葡萄串检测和基于回归的葡萄颗粒计数这两个方面进行开展的。然而,这两类方法相对独立,且覆盖场景有限,并伴随着较大的产量预估误差。对此,提出了串-粒融合的
近年来,随着监控摄像头的普及和城市安防的需要,行人重识别成为了计算机视觉领域越来越重要研究的课题。其潜在的应用领域也越来越宽广,在刑侦破案、智慧城市、无人超市等领域有着广泛的应用前景。早期的行人重识别技术是通过手工提取行人图像的特征,如今基于深度学习的方法在行人重识别技术上应用已成为研究的热点。针对行人重识别,相关研究者已经做了很多的工作,然而依然存在一些需要解决的问题。一方面行人重识别数据采集困
随着现代计算机视觉的不断进步和发展,三维重建技术引起了学术界和产业界的广泛关注,在模型缺陷检测、智能机器人视觉、3D打印等领域有着非常广泛的应用,尤其是对室内场景进行实时稠密的高质量的三维重建是机器人、增强现实等领域关注的重点。三维重建算法可大致分为双目立体视觉的三维重建和基于RGB-D传感器的实时三维重建。基于双目立体视觉的三维重建,一般是通过多个视角的观察数据帧和帧间的视差信息来计算出物体的深
随着测序技术的发展,生物大分子序列数据量也飞速增长。数据挖掘作为从庞大的数据中提取出未知、隐含及具备潜在价值的信息的技术,被广泛应用于生物信息领域,用于探索其生物意义。其中,三维基因组学是近些年来基因领域的研究热点,研究表明基因组的三维结构与基因的转录调控以及表观遗传存在相关性,然而物种间的基因组三维结构的比较分析尚未在植物中得到广泛研究。因此以杨树为例,使用数据挖掘技术对胡杨和新疆杨进行三维基因
染色体图像分类,是临床上进行染色体分析的关键步骤之一,在遗传疾病的诊断和肿瘤学研究中具有重要意义。得益于计算机技术的发展和进步,使用计算机进行自动化的染色体分类,成为了近年来的热门研究。染色体是非刚性物体,容易发生弯曲,弯曲的染色体会影响网络的精确率,需要对弯曲的染色体进行矫直。现有的染色体矫直方法主要分为切割矫直法和骨骼关联矫直法,这两种方法存在一些局限性:切割矫直法,通过切割图片矫直染色体,会
随着网络的普及以及大规模食物数据的涌现,为了有效获得所需的食物信息,食物计算领域的跨模态菜谱检索得到了广泛关注。跨模态菜谱检索是食物图像和菜谱之间的相互检索,跨模态菜谱检索的难点在于食物图像和菜谱之间的关系极为复杂:有较多的食物图像外观相似且部分图像存在着干扰信息;在烹饪过程中有的食物配料变得不可见或者配料外形会发生变化;烹饪指示中暗含着配料与食物成品图像的某种关系。现有研究方法存在的问题:1.由
三维探测技术具有广泛的应用价值,在地形获取、自主定位、实景模拟、工业生产等诸多领域具有重要的推广及理论研究意义。作为三维探测技术驱动核心的场景深度信息获取是计算机视觉领域的热门研究课题之一,近年来受到了研究人员的广泛关注。传统深度信息获取方法大多采用基于多视图的双目立体匹配或从运动恢复结构的方式,对输入图像及相机拍摄参数的限制要求较多,提高了深度信息获取的门槛。因此,采用更少场景图像输入、对相机硬
红外成像仿真技术能够有效克服时间、环境、地域的限制获取不同环境条件下的红外图像,传统基于场景建模的仿真方法存在建模复杂度高、建模时间长等缺点,随着增强现实技术的发展,在真实场景中加入虚拟仿真物体能够避免大范围的场景建模工作,方便快捷地生成红外仿真图像。为保证仿真图像的视觉效果更加逼真,需要重点解决虚实融合的辐射一致性问题,即虚拟景物和真实背景应具有一致的红外辐射。在真实环境中,探测器接收到的辐射值
互联网发展日新月异,在改变人们生活娱乐方式的同时,也拓宽了社交渠道。交流分享不再受到距离限制,但问题亦接踵而至,攻击性言论犹如附骨之疽充斥在网络世界中,破坏着绿色文明的网络交流环境。攻击性言论是针对特定个人、群体进行言语攻击或能引起观者不适的文字内容,常见于各种社交媒体平台。准确的自动化检测工具能有效遏制攻击性言论的泛滥,故研究聚焦于使用机器学习方法检测识别攻击性言论。攻击性言论相关子任务包括了检