【摘 要】
:
关系抽取技术能够快速有效地从海量的文本语句中抽取出结构化的关系事实,提供给人们更精细地信息检索与辅助决策服务。迄今为止,基于完全监督的关系抽取已取得可观的成效。然
论文部分内容阅读
关系抽取技术能够快速有效地从海量的文本语句中抽取出结构化的关系事实,提供给人们更精细地信息检索与辅助决策服务。迄今为止,基于完全监督的关系抽取已取得可观的成效。然而,完全监督对训练样本的真实性要求严苛,若采用人工标注费时费力。相比之下,弱监督学习因标注工作成本低廉,更贴合人们对大规模数据处理的需求。但弱监督信号带来的错误标注、样本类型标注不均等问题致使抽取性能受到影响,严重阻碍了弱监督关系抽取在实际生产生活中的应用。针对弱监督错误标注问题,本文提出了一种基于权衡机制的远程监督关系抽取神经网络框架。该框架在句子层级上结合文本语句与实体对的嵌入词向量表示所包含的语义信息以预测关系事实。为此,本文首先设计了一种权衡机制。该机制能够依据文本与实体对的内容自适应地为它们分配影响力权重。其次,框架运用多层软注意力机制筛选出有价值的语义信息,约束关系抽取任务中的弱监督信号。针对远程监督标记训练集中不同关系类别样本数量不均衡的情况,本文在基于权衡机制的抽取框架基础上,提出了融合多源语义表示的弱监督关系抽取模型,以增强抽取模型在样本不平衡情况下的鲁棒性。模型首先利用一阶逻辑推理将包含人类感知的非文本离散化监督知识统一整合成低维连续向量以反映文本特性,扩大弱监督关系抽取的特征空间。之后,从文本内容与文本特性两方面出发,采用不同的学习方法挖掘文本语句中潜在的语义信息。最后,在神经网络中融合不同形式的弱监督知识,帮助模型辨识多样化的关系事实。在广泛使用的数据集NYT-Freebase上的实验结果表明,基于权衡机制远程监督关系抽取框架有效缓解了错误标注噪音的影响,抽取精度提升显著。此外,优化后的基于多源语义表示融合的弱监督关系抽取模型与现有算法相比精确性表现优异,并且能够挖掘出更多训练样本稀少的关系类型实例,在置信度排名靠前300个分类正确的结果中共发现了10种不同种类的关系事实,具有较高的实际应用价值。
其他文献
目的:通过回顾性对比枸橼酸咖啡因与氨茶碱治疗早产儿原发性呼吸暂停的临床数据,评估咖啡因的临床疗效、安全性;通过后期的随访,评估两组患儿在矫正年龄1岁时的神经发育结局
当前我国面临较大的城市化与城市更新压力,在国内外都高度关注城市生态问题的今天,如何将生态口号真正落实到园林绿化中,是设计实践面临的新议题。本文以奥林匹克森林公园为
详述已研制成功并投产的半导体(LD)激光中心线准直仪的原理,扼要指出该系统实现中的LD和接收器等重要环节的关键技术。
离子吸附型稀土是21世纪重要的战略资源,极具稀缺性和不可替代性。赣南矿点众多。离子型稀土开采过程中监测成本高、难度大,开采后矿区环境恢复过程中复垦情况监测和矿区环境
乳铁蛋白是哺乳动物乳汁中重要的生物活性蛋白,是母乳中的核心免疫成分。在婴幼儿配方奶粉中添加乳铁蛋白可促进婴幼儿生长发育及提高免疫力。了解母乳中乳铁蛋白含量,掌握其含量变化规律,对设计各阶段婴幼儿奶粉配方有重要的指导意义。目前母乳中乳铁蛋白检测方法尚存在诸多问题,本论文优化了样品预处理过程及检测条件,建立了首个适用于人乳乳铁蛋白的超高效液相色谱法,并研究了泌乳期、分娩方式、胎次对乳铁蛋白的影响。主要
尾矿库的生长伴随矿山的整个生产过程,尾矿坝的稳定是矿山生产过程中不得不重视的一个问题。选矿后的尾砂浆通过架设在库区的放矿管被排放到尾矿库中,不断地沉积和固结。在实
我国是一个多民族的国家,语言是一个民族文化传承和发展的重要载体,汉语作为国家通用语言,是大多数少数民族儿童学习融入主流文化的重要途径,主要包括语音、词汇、句法、语义
米酒的液态发酵技术是实现米酒大罐快速发酵的基础。通过研究米酒的液态发酵工艺,实现米酒的快速液态发酵,并保证酸和酯的相对平衡,对提高米酒生产效率、降低生产成本,提升企
"说理式"执法是行政主体在作出具体行政行为时,除有法律特别规定外必须自始至终向行政相对人说明理由的一种新型执法方式。"说理式"行政执法,是指在行政执法过程中,以处罚与
Web2.0时代信息技术飞速发展,因特网的出现促进了数据量呈爆炸式增长。作为信息传播的主要载体,这些数据承载着人们关注的大量信息,如何对大规模、非结构化的数据进行快速、