基于多层二进制标注与多任务学习的实体关系联合抽取算法研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:weixin1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理中的信息抽取任务是指抽取自然语言文本中的实体、实体关系和事件等结构化信息,是一种将非结构化或者半结构化的文本数据,转化为结构化信息的技术。随着互联网的飞速发展,网络上存在越来越多的以文本形式存在的数据,如何快速将大量无结构的文本数据转化为有结构的信息,为下游应用提供数据支撑,是信息抽取需要解决的问题。信息抽取的具体任务包括命名实体识别、实体关系抽取和事件抽取。其中,命名实体识别与实体关系抽取通常被合并为实体关系联合抽取任务,是信息抽取中的核心任务。通过对文本信息建模,自动抽取出文本中的命名实体、实体类型以及实体之间的关系,抽取结果通常以三元组(头实体,关系,尾实体)的形式呈现。随着深度学习的快速发展,越来越多的实体关系抽取研究开始基于深度学习进行。本文研究了实体关系联合抽取算法,提出了基于多层二进制标注的实体模型与关系模型,并在此基础之上此构建了基于多任务学习的实体关系联合抽取模型,主要工作如下:(1)针对实体抽取任务中,同一实体多种类型、多个实体嵌套的问题,构建基于多层二进制标注的实体抽取模型,以多层二进制标注的方式对文本序列中的实体位置及实体类型进行标注,可以缓解传统序列标注模型无法解决的嵌套问题。(2)针对关系抽取任务中,单一实体嵌套(头实体嵌套、尾实体嵌套)、多重实体嵌套(头尾实体同时发生嵌套)的问题,构建基于多层二进制标注的实体关系抽取模型,基于前序步骤抽取到的头实体,采用多层二进制标签标注不同关系类别下的所有尾实体,可以有效提高嵌套实体关系的抽取效果。(3)针对实体抽取与关系抽取任务之间流水线模型的误差累积传递问题,采用多任务学习的方式,对实体抽取模型与关系抽取模型采用统一的特征编码神经网络,将两个任务联合优化,从而缓解顺序抽取过程中存在的误差累计传递问题,提升联合抽取模型的整体性能。(4)针对实体抽取与关系抽取两个任务之间的信息交互问题展开研究,分别提出基于输入层的信息交互、基于注意力机制的信息交互方式,以进一步增强两个任务之间的信息交互。基于上述两种信息交互方式及多任务学习方法,分别提出了基于输入层信息交互的实体关系抽取模型、基于注意力机制信息交互的实体关系抽取模型。
其他文献
随着移动智能手机的普及,手持拍照成为日常生活中非常重要的一部分。然而,传统的相机传感器无法捕获自然场景中的高动态范围(High Dynamic Range,HDR),专业的硬件设备也由于其高昂的价格难以普及。目前主流的高动态范围成像(High Dynamic Range Imaging,HDRI)技术主要是通过软件层面实现,即利用算法将低动态范围(Low Dynamic Range,LDR)图像恢
乳腺癌是最为常见的癌症之一,早期发现并及时治疗可大幅提高患者存活率。因此,对于乳腺癌的早期诊断十分重要。相较于钼靶、CT等方式,超声检测因其安全性、便捷性、灵活性等优势被广泛应用,针对乳腺超声图像的辅助判别模型也逐渐被重视。不同于海量的人脸、自然图像数据,典型、准确且有效的医学图像金标准数据是极其有限的,同时,罕见疾病数据和新发疫情的早期数据亦是极度缺乏的,此类状况都极大地限制了深度学习等强大模型
甲状腺结节是一种常见的临床问题,对其进行临床检查能够判断患者是否患上甲状腺癌,超声是首选的检查方式,但为了进行更准确的诊断,还需要对患者作病理检查,由此生成的病理报告是公认的金标准。由于病理报告直接反应患者情况,知晓患者的病理报告诊断结论,便可推导出其超声图像检测结果为良性还是恶性。而这对于甲状腺超声图像的标注也具有重要意义:基于超声图像的甲状腺结节计算机辅助诊断系统以深度神经网络作为主要的甲状腺
随着智慧城市的升级,智慧城管系统朝着智能化和多任务的方向发展,其中违规广告牌检测是智慧城管系统的一项重要研究任务。近年来,随着深度学习和计算机视觉的快速发展,越来越多的基于卷积神经网络的目标检测算法被用于非法广告牌检测,具有较高的检测精度,但是在实际应用中可能有一些问题:一方面,对目标检测要求实时性;另一方面,复杂的卷积神经网络的训练需要高性能机器支持,这些高性能的机器不是每个单位都能提供。为了更
随着互联网的蓬勃发展,越来越多网民在社交平台上发表自己的言论,这些言论中通常包含大量的情绪信息,分析这些文本中蕴含的情绪可以为舆情分析等许多任务提供支持,拥有很高的应用价值。由于社交平台上用户发布的每一段文本通常包含多种情绪,且这些情绪间互相存在关联,捕捉这样的关联可以为准确识别文本中的情绪带来帮助,所以文本情绪分析应使用能够建模情绪关联性的多标签分类方法。目前以序列到序列模型为基础的深度学习方法
使计算机具有文本生成能力,是实现人工智能的重要目标之一,也是当前自然语言处理领域的研究热点。近年来,深度学习成为文本生成的主流方法,使得生成文本更加流畅,极大地提高了生成文本的质量。然而,主流的深度学习文本生成方法以序列到序列模型为基础,它们针对相同的源文本总是产生相同的目标文本,这对于要求提供多样性回复的应用场景是不适合的,例如聊天机器人。因此,在满足高质量的前提下提高生成文本的多样性,成为文本
在软件开发流程的前端开发环节中,前端开发人员需要根据UI(User Interface,用户界面)设计图编写对应的界面代码。为了1:1还原UI设计图中UI组件的位置与样式,开发者通常采用一种不断试错的方式进行界面代码编写,这是一项耗时且重复的工作。实现从UI设计图到界面代码的自动转化,可以避免这种重复的试错过程,提高开发效率,有利于软件的快速迭代。近年来,有不少工作利用深度学习技术,致力于将UI设
随着深度学习的发展,中国古典诗歌的自动生成研究取得了很大的进展。近年来,研究人员在关注如何提高自动生成诗歌质量的同时,提出了根据图像信息生成诗歌这一跨模态任务。目前,针对该任务的研究方法仍然存在诗句主题偏移和语义不一致的问题;同时一些重要的图像信息不能准确的被表达在生成的诗歌中;而且在训练过程中,图像和诗歌的配对数据集存在质量差和难以构建的问题。本文针对这些问题,提出了一种基于深度学习的图像生成诗
鞍区的周围毗邻着Willis环、视神经等重要的神经血管结构,是病变的好发部位。颅咽管瘤(Craniopharyngioma,CR)、鞍结节脑膜瘤(Tuberculum Sellar Meningioma,TSM)、Rathke’s囊肿(Rathke’s Cleft Cysts,RCCs)和垂体瘤(Pituitary Adenomas,PAs)是鞍区最为常见的病变。磁共振成像(Magnetic Re
值函数估计在深度强化学习算法中应用广泛,并且在状态和动作空间较复杂的环境中可以解决传统强化学习中遭遇的维度灾难问题。因此,值函数估计的研究在深度强化学习领域具有十分重要的意义。但在深度强化学习算法值函数估计的过程中存在一些问题:(1)在更新值函数的过程中,算法普遍选择当前状态下最大的动作状态值(Q值)估计来计算目标Q值,导致算法过高估计Q值,对性能造成不利影响。(2)基于值函数的深度强化学习算法在