基于弱监督深度学习的中医文本关系抽取研究

来源 :华北理工大学 | 被引量 : 1次 | 上传用户:zq867123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医学领域积累了海量的古籍文献,包含大量中医知识。为了从海量的中医文献中自动获取需要的知识信息,首先需要对中医文本进行信息抽取,关系抽取是信息抽取的基本任务之一。有监督关系抽取方法需要大量已知标签的数据集,弱监督关系抽取方法可以在给定实体关系三元组和未标注中医文本的条件下利用弱监督学习方法自动生成语料,能够有效缓解人工标注的高额成本。但是弱监督学习条件下的中医文本标注数据集存在错误标注,产生了噪声句子,影响了关系抽取的效果。针对这些问题主要做了以下研究工作。针对中医弱监督标注数据中存在错误标注,影响以包为级别的关系抽取效果的问题,提出了一种基于双注意力机制的弱监督深度学习模型。该模型基于多示例学习思想,在以包为级别的基础上进行关系分类。利用双向长短时记忆网络对中医文本的嵌入向量进行双向编码,捕捉每个句子的语义特征。同时通过字级注意力层和弱监督注意力层分别降低了无关中医词汇和噪声语句的权重,减轻噪声对关系抽取效果的影响。此模型可以减弱噪声影响,更好地为每个包预测关系。将本模型与平均注意力层作对比实验,实验表明本模型可以在弱监督层面更好的抽取包的关系信息,获得更好的关系抽取效果。针对弱监督的中医文本关系抽取中存在噪声句子,导致模型无法准确学习句子中实体关系的问题,设计了一种基于深度强化学习方法的关系抽取模型。该模型对每个中医句子进行关系分类,主要由句子选择器和关系分类器两部分组成。句子选择器选择高置信度的中医句子放入集合,关系分类器判断每个句子的关系标签。两个模型在一定次数的预训练之后联合训练,两者相辅相成,共同优化,相互作用。实验结果表明,结合深度强化学习方法的弱监督关系抽取模型能够在中医句子级别上取得较好的关系抽取结果,同时句子选择器模型可以有效地选择高质量的句子,处理数据的噪声。图29幅;表8个;参54篇。
其他文献
随着通信技术的快速发展,各种信息传输媒介层出不穷,而光纤因其自身传输频带宽、传输容量大、重量轻等优越性,加之其生产成本低,成为了当今信息的主流载体,被应用于各大通信
棕背伯劳(Lanius schach)隶属于雀形目(Passeriformes)伯劳科(Laniidae),在中国分布广泛,并在部分地区存在羽色多态现象,即在羽色上有棕色型、黑色型及过度色型的分化。鸟类
地铁具备准时性、安全性、高效性、舒适性等诸多优点。因此,我国越来越多的城市修建了地铁系统,其逐渐成为城市居民出行的重要交通方式之一。地铁作为城市公共交通动脉,其安
新兴产业中处于横向竞争地位的初创企业,会呈现渐变和突变两种不同的演化状态。不同状态下的横向竞争企业,价值变化都具有高度的不确定性。为了降低投资决策的不确定性风险,
伴随着社会快速发展,一次性能源(煤、石油和天然气等)的枯竭和过度使用造成了严峻的能源危机和环境污染问题。为保证社会经济的可持续发展,发展清洁、可再生能源成为了全世界关
【目的】本研究旨在探讨中国人群非小细胞肺癌(non-small cell lung cancer,NSCLC)驱动基因及肿瘤标志物的相关性,并利用现有研究对EGFR状态与肿瘤标志物的相关性进行meta分析,在佐证本研究的同时为临床选择分子靶向药物提供依据。【方法】1.临床资料分析回顾性收集福建医科大学附属第一医院2012年11月至2018年7月符合纳入标准NSCLC 563例。采用卡方检验初步探讨
保罗·欣德米特(Paul Hindemith)是德国著名作曲家、音乐理论家,本文选取其于1925年创作的作品《乐队协奏曲》进行研究。《乐队协奏曲》创作于魏玛共和国时期,这是德国历史上
目的:高弓足指足弓异常增高的足部畸形,在负重时足弓无法放平。前足高弓足在临床上较为常见。针对此类畸形神经内科常无特效疗法,多需外科手术干预,但术式繁多,且无统一标准