基于弱监督方法的实体关系抽取研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wangyongzhi59
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代信息技术飞速发展,因特网的出现促进了数据量呈爆炸式增长。作为信息传播的主要载体,这些数据承载着人们关注的大量信息,如何对大规模、非结构化的数据进行快速、高效地处理进而得到结构化的信息成为当今研究的热点,这就是信息抽取的主要任务。实体关系抽取是信息抽取领域的一个重要分支,不仅在理论研究方面具有促进意义,在实际工程应用领域同样具有广阔的应用价值。当前实体关系抽取主要还停留在基于监督学习/半监督学习等方式,存在训练数据获得成本较高、泛化性欠佳等不足之处,而弱监督学习在一定程度上解决了这些问题。本文对基于弱监督学习的实体关系抽取进行研究,主要工作如下:第一,提出了基于弱监督学习并结合词向量和触发词类别分析的关系抽取方法,从多个维度对语料进行特征抽取,之后采用富向量思想复合这些特征,最后根据知识库中每种关系对应的最具代表性触发词列表对预测的实体对关系结果进行修正。实验结果表明,词向量和触发词类别分析的引入使得抽取系统整体性能得到了提升,并且低频实体对对系统抽取性能影响较小,在150个实体对数量级上准确率提高了 20.3%,在500个实体对数量级上准确率提高了 18.7%。第二,通过分析弱监督学习过于苛刻的基本假设,提出了一种结合过滤机制的子序列映射分层主题模型,在训练阶段通过多层主题模型以及子序列映射,解决了由于某些词序列出现次数较少产生的稀疏性,有效地缓解了长尾效应。此外,通过引入常见错误标记集合,对生成模型的关系预测结果进行过滤,减少错误标记样本的数目。实验结果表明,通过该模型可以有效地降低训练数据被错误标记的次数,与结合词向量与触发词分析的抽取方式相比,准确率提升了 9.72%,并且平均准确率抖动较小,在大量实体对抽取任务情形下依旧保持了较好的稳定性。论文的主要贡献和创新有:本论文提出的结合词向量和触发词类别分析的关系抽取算法,在高频实体对预测的准确性上有显著提高,同时也提高了系统整体的准确率,具有实用性;结合过滤机制的子序列映射分层主题模型可以有效地降低抽取系统错误标记的次数,减少噪声数据,提高抽取系统性能。
其他文献
目的通过构建anti-BPDE诱导的人支气管上皮细胞恶性转化模型,研究circRNA在anti-BPDE诱导人支气管上皮细胞恶性转化中的功能,进一步探讨其分子机制,在表观遗传学层面揭示细胞
目的:通过回顾性对比枸橼酸咖啡因与氨茶碱治疗早产儿原发性呼吸暂停的临床数据,评估咖啡因的临床疗效、安全性;通过后期的随访,评估两组患儿在矫正年龄1岁时的神经发育结局
当前我国面临较大的城市化与城市更新压力,在国内外都高度关注城市生态问题的今天,如何将生态口号真正落实到园林绿化中,是设计实践面临的新议题。本文以奥林匹克森林公园为
详述已研制成功并投产的半导体(LD)激光中心线准直仪的原理,扼要指出该系统实现中的LD和接收器等重要环节的关键技术。
离子吸附型稀土是21世纪重要的战略资源,极具稀缺性和不可替代性。赣南矿点众多。离子型稀土开采过程中监测成本高、难度大,开采后矿区环境恢复过程中复垦情况监测和矿区环境
乳铁蛋白是哺乳动物乳汁中重要的生物活性蛋白,是母乳中的核心免疫成分。在婴幼儿配方奶粉中添加乳铁蛋白可促进婴幼儿生长发育及提高免疫力。了解母乳中乳铁蛋白含量,掌握其含量变化规律,对设计各阶段婴幼儿奶粉配方有重要的指导意义。目前母乳中乳铁蛋白检测方法尚存在诸多问题,本论文优化了样品预处理过程及检测条件,建立了首个适用于人乳乳铁蛋白的超高效液相色谱法,并研究了泌乳期、分娩方式、胎次对乳铁蛋白的影响。主要
尾矿库的生长伴随矿山的整个生产过程,尾矿坝的稳定是矿山生产过程中不得不重视的一个问题。选矿后的尾砂浆通过架设在库区的放矿管被排放到尾矿库中,不断地沉积和固结。在实
我国是一个多民族的国家,语言是一个民族文化传承和发展的重要载体,汉语作为国家通用语言,是大多数少数民族儿童学习融入主流文化的重要途径,主要包括语音、词汇、句法、语义
米酒的液态发酵技术是实现米酒大罐快速发酵的基础。通过研究米酒的液态发酵工艺,实现米酒的快速液态发酵,并保证酸和酯的相对平衡,对提高米酒生产效率、降低生产成本,提升企
"说理式"执法是行政主体在作出具体行政行为时,除有法律特别规定外必须自始至终向行政相对人说明理由的一种新型执法方式。"说理式"行政执法,是指在行政执法过程中,以处罚与
会议