论文部分内容阅读
中医学领域积累了海量的古籍文献,包含大量中医知识。为了从海量的中医文献中自动获取需要的知识信息,首先需要对中医文本进行信息抽取,关系抽取是信息抽取的基本任务之一。有监督关系抽取方法需要大量已知标签的数据集,弱监督关系抽取方法可以在给定实体关系三元组和未标注中医文本的条件下利用弱监督学习方法自动生成语料,能够有效缓解人工标注的高额成本。但是弱监督学习条件下的中医文本标注数据集存在错误标注,产生了噪声句子,影响了关系抽取的效果。针对这些问题主要做了以下研究工作。针对中医弱监督标注数据中存在错误标注,影响以包为级别的关系抽取效果的问题,提出了一种基于双注意力机制的弱监督深度学习模型。该模型基于多示例学习思想,在以包为级别的基础上进行关系分类。利用双向长短时记忆网络对中医文本的嵌入向量进行双向编码,捕捉每个句子的语义特征。同时通过字级注意力层和弱监督注意力层分别降低了无关中医词汇和噪声语句的权重,减轻噪声对关系抽取效果的影响。此模型可以减弱噪声影响,更好地为每个包预测关系。将本模型与平均注意力层作对比实验,实验表明本模型可以在弱监督层面更好的抽取包的关系信息,获得更好的关系抽取效果。针对弱监督的中医文本关系抽取中存在噪声句子,导致模型无法准确学习句子中实体关系的问题,设计了一种基于深度强化学习方法的关系抽取模型。该模型对每个中医句子进行关系分类,主要由句子选择器和关系分类器两部分组成。句子选择器选择高置信度的中医句子放入集合,关系分类器判断每个句子的关系标签。两个模型在一定次数的预训练之后联合训练,两者相辅相成,共同优化,相互作用。实验结果表明,结合深度强化学习方法的弱监督关系抽取模型能够在中医句子级别上取得较好的关系抽取结果,同时句子选择器模型可以有效地选择高质量的句子,处理数据的噪声。图29幅;表8个;参54篇。