【摘 要】
:
关系分类是自然语言处理领域的一项重要任务,也为知识图谱的构建、问答系统和信息检索等相关研究提供技术支持。深度学习技术的出现拓展了关系分类任务的相关研究,在实验效果上取得进一步的突破,基于深度学习的关系分类方法逐渐成为该研究的重点研究方法之一。近年来,基于深度学习的关系分类研究在任务改进方面主要集中在对注意力机制的优化和对语义信息的优化两大方面上。然而,此类方法目前尚且存在以下问题:(1)不少学者在
论文部分内容阅读
关系分类是自然语言处理领域的一项重要任务,也为知识图谱的构建、问答系统和信息检索等相关研究提供技术支持。深度学习技术的出现拓展了关系分类任务的相关研究,在实验效果上取得进一步的突破,基于深度学习的关系分类方法逐渐成为该研究的重点研究方法之一。近年来,基于深度学习的关系分类研究在任务改进方面主要集中在对注意力机制的优化和对语义信息的优化两大方面上。然而,此类方法目前尚且存在以下问题:(1)不少学者在关系分类研究中使用完整的句意特征辅以实现关系分类任务,但关系分类任务不完全等价于语句分类任务,与实体相关的上下文信息会更影响实体之间的类型划分,句意特征中的一些无效语义信息会变成影响关系分类性能的噪声;(2)在语料量较小的数据集上训练关系分类模型,会因为数据集本身的信息量较少的原因导致模型无法学习到较为完整的语义表示,语义信息的提取来源还有待进一步扩展;(3)深度学习模型的实验表现较为依赖于模型提取的特征,当模型提取的特征较为单一,会制约关系分类模型性能进一步提升。针对上述问题,本文提出了一种融合多特征信息的关系分类方法,从深度学习模型与语义特征两个方面对关系分类方法进行改进。本文在BERT模型的基础上结合Nystr(?)mformer注意力机制构建SEBN模型,利用SEBN模型重点关注语料中更利于关系分类的句意信息;采用Type-SEBN模型对句意信息、实体信息、实体类型信息等多种语义信息进行学习,并通过相关实验证明本文所提的句意信息、实体类型信息的有效性以及所用语义信息融合方式的有效性。本文的相关工作如下:(1)通过参考spaCy和Stanford Core NLP等工业级实体类型分类标准,根据研究所需选择性地对分类标准进行优化,构建出契合本研究需要的实体类型分类标准imp Spa Cy。理清对应实体在句子中的具体含义,以便于通过参阅imp Spa Cy标准,以人工标注的形式对Sem Eval-2010 Task 8数据集的各原句的实体标注出其实体类型。提出一种类向量生成算法,从数据集中抽取出实体的类向量,并作为外部语料的方式将其引入模型中学习,使之成为重要的关系分类的重要语义特征辅以实验的完成。(2)通过组合BERT模型与Nystr(?)mformer注意力机制构建SEBN模型,将Sem Eval-2010 Task 8语料中的句子经由BERT模型编码成词向量,之后将所有生成的词向量一同输入Nystr(?)mformer层中,利用Nystr(?)mformer注意力机制对有利于关系分类的重要句意信息进行重点关注,出于提升后继任务的效果的考量下,提升了BERT模型的句意信息抽取的效果。(3)利用SEBN模型对句意信息、实体信息、实体类型信息融合而成的复合语义信息进行学习,构建出本文的最终模型Type-SEBN。将句意特征、实体特征、实体类型特征经由模型组合后分别送入全连接层与softmax层处理后,得到指定实体对之间的关系类型。(4)通过设置实验与分析,既证明了本文模型在关系分类任务上优于参考模型,也证明了本文所提的融合了句意特征、实体特征、实体类型特征的复合语义特征的有效性。
其他文献
大数据和云计算的快速发展,使得人们可以方便地将海量信息上传至云服务器中存储,或者利用它的强大运算能力为自己服务,与此同时,也给人们带来了诸多信息安全问题。密文域可逆信息隐藏作为一种可确保隐蔽载体内容的前提下,还可在密文载体中隐藏秘密信息的技术,可有效地保障密文传输过程中的安全问题,同时方便云端管理者对海量信息的管理。因此,研究密文域可逆信息隐藏算法是近年来密码学领域的一大热点。加密后生成空间算法(
随着人们日常生活对室内定位需求不断提升,室内定位技术日益受到国内外学者的关注。现有的室内定位平台大多聚焦于二维平面的定位,对垂直方向的定位研究较少,难以应对当今社会对室内三维定位的需求。目前室内三维定位技术发展的瓶颈主要体现在垂直方向的定位上,因此,在成熟的二维定位基础上,改进楼层定位技术,提高室内定位的服务质量,成为室内三维定位技术突破的当务之急。当前已有的楼层定位方法受室内环境、技术手段等因素
近年来,以LCC谐振拓扑作为主功率电路的高压直流电源由于具有兼容高压变压器寄生参数、工作高效的优点,在静电纺丝、静电除尘和X光机等领域得到广泛的应用,具有良好的发展前景。为了获得较高的输出电压,单级拓扑结构的高压直流电源必须具备较大的匝比,由此带来的较大寄生参数限制了频率的提升,增加了系统的设计难度。级联型高压直流电源能够减小变压器的升压压力,降低寄生参数的影响,有效地克服了以上缺点。因此,研究级
互联网的高速发展为我们的生活带来大量的多模态的数据,而在多媒体数据中进行检索也成为了大多数人的需要。顾名思义,交叉模态检索是一种能在不同模态中进行检索的技术,以其有效且高效的特点,在多媒体数据检索中受到了大量研究人员的关注。而哈希技术的出现,能将海量的数据通过投影转化为二进制代码,大幅度降低了存储空间和检索时间要求,其又将交叉模态检索技术往前推进了一大步。当前的主流方法是利用联合矩阵分解方法学习一
随着我国工农业和物流的发展,带式输送机的使用越来越多,其出现故障越来越频繁。其中带式输送机在长距离、高速度、大容量传输中具有重要的作用,由于我国的整体制造水平和发达国家还有一段很大的差距,很多主要的芯片都需要从国外进口,其中控制系统的核心部件的加工和制作水平达不到现有要求。因此如何研制更加智能的监控系统,提高生产工艺对于现有的带式输送机至关重要,鉴于此研究带式输送机显得至关重要。针对目前我国带式输
随着综合立体交通网建设的持续推进和感知技术在交通领域大规模应用,交通数据在快速增长,这些将成为现代化高质量综合立体交通网的保障。短时交通流预测是综合立体交通网现代化所必须攻克的问题之一,对实现交通疏导避免拥堵和路径规划有重要意义,是路网交通更加智能先进,便捷顺畅,安全可靠的技术保障。为了研究交叉路口短时交通流量预测的问题,本文采用神经网络理论设计了基于多源时空特征的交通流量预测模型。本文中设计的模
混沌密码学是一门融合了密码学和混沌理论的交叉学科,早在二十世纪80年代末就引起各方学者的关注,尤其是在当前大数据时代的背景下,数字图像成为信息交换的主要方式,所以各界研究学者在将混沌密码学用于数字图像加密的过程中,更加注重图像加密系统所具备的实用性和安全性。因此,当前各界学者开展对图像混沌加密算法的密码分析工作具有重要的现实意义。本文对两个图像混沌加密算法进行安全分析,发现算法中可能存在的安全缺陷
在当前的全球市场中,质量和安全越来越成为消费者是否决定购买该产品的重要指标。然而,由于产品生产者与消费者之间的信息不对称,市场监管不利等原因,产品质量问题还时有发生,损害了消费者利益,造成了极坏的影响。因此,世界各国也越来越重视产品质量问题,纷纷从制度和政策等多个层面采取措施加强产品质量和安全监管,并鼓励和提倡社会各界运用先进技术进行产品质量监督和管理。同时,各国学者与企业界人士也从各自不同的角度
随着现代工业的快速发展,产品更新换代的速度越来越快,与此同时,机械产品在生产、使用以及整个设计生命周期的过程中,往往会会对环境造成不可估量的污染,影响工业可持续发展,人们对于绿色生活品质的要求也越来越高。有效设计出符合绿色环保性能的产品和缩短产品的设计开发周期,能够使企业在市场中占据重要地位。绿色高效节能的发电机是机械设备重要的发展方向,与其他发电机相比,永磁发电机具有更高的效率和更高的控制精度。
在当今热门的互联网的应用领域,如云计算、Io T中,主机入侵检测技术的成熟应用能很大程度上提升关键基础设施主机的安全水平。在基于主机入侵检测技术研究方面,前人已形成较为丰富的研究成果,如基于N-Gram滑动窗口方法、基于传统机器学习进行特征提取的方法、基于深度学习的方法等,从侧面展现出主机入侵检测研究的重要性。上述方法各有特点,但在现实训练中,分别存在训练数据要求高、计算代价高、易过拟合等现实问题