论文部分内容阅读
药物相互关系提取是实体关系提取在生物医学领域的一个应用,对生物医学文本挖掘、药物不良反应预警和药物信息检索等多个领域具有重要意义。现有的药物相互关系提取模型大多只利用了文本自身的语义信息和句法信息,忽视了生物医学领域专业知识的重要性,也有一些方法引入了陈旧落伍的生物医学信息。在对各类文本表征进行整合的时候,现有方法只将信息简单地进行拼接,忽略了各类表征之间的关联。为了解决上述不足,本文研究基于双向长短期记忆的药物相互关系提取模型,从而提升药物相互关系提取模型的性能。为了解决现有方法中缺乏生物医学领域内知识的不足,本文提出一个添加了外部生物医学资源的药物相互关系提取模型。在将文本数据映射为文本表征时,除了词语嵌入向量、实体偏移嵌入向量,加入了一种低维分布式外部生物资源表征:概念嵌入向量。概念嵌入向量由外部专业语料库训练而来,包含了生物医学实体的语义信息。最后,将转换得到的文本表征序列输入到基于双向长短期记忆网络的深度学习分类器中,从而得到最后的预测结果。为了解决现有方法中生物医学信息陈旧和忽视表征之间关联性的不足,本文提出了一个添加用户生成内容表征的药物相互关系提取模型,模型中也提出了一种全注意力机制将两类语义表征进行融合。在表征生成阶段,添加一种由用户生成内容训练而来的用户生成内容嵌入向量作为即时生物信息的表征,然后利用一种基于注意力机制的权重计算方法,将词语嵌入向量和用户生成内容嵌入向量进行结合。最后,将文本表征序列输入到基于双向长短期记忆网络和Transformer模型的深度学习分类器中,输出药物相互关系预测标签。综上所述,本文为了解决生物医学知识缺乏或生物医学知识陈旧的问题,引入了概念嵌入向量和用户生成内容嵌入向量两类外部生物医学资源表征,验证了外部生物医学资源对于药物相互关系提取的有效性;为了解决各类表征之间的关系被忽视的问题,提出了一种基于注意力机制的表征融合方法,提高了药物相互关系提取任务的性能,克服了现有方法中的不足。