论文部分内容阅读
近些年来互联网发展的速度越来越迅猛,尤其是推动了生物医学领域的进步,文献的数量剧增,几乎呈“指数级”的趋势,海量的生物医学文献中,包含着大量的医学实体、实体关系同时也隐含着诸多知识,待研究者们去挖掘,但是仅通过人工阅读的方式从中获取有价值的信息显然是不太可行的,主要由于会消耗大量的人力成本和时间,而且效率也不高。随着机器学习、深度学习、自然语言处理等人工智能的技术普及度越来越高,诸多的研究人员,将技术应用于实践中,譬如文本挖掘领域,旨在可以从海量的文献中高效的挖掘出隐藏的知识,从而做更深入的研究。奥巴马曾经在2015年提出了一个关于精准医学的方案,随着精准医疗计划的普及,基于生物医学领域的文献进行实体关系的抽取也得到了广泛的关注,同时也为了更好的服务于精准医疗奠定了一个良好的基础。针对于生物医学范畴的文献中包含着多种医学实体,例如:基因实体、药物实体、化合物等,实体之间也包含着多种关系(基因-蛋白质、药物-药物、蛋白质-化合物等),基于生物医学领域文献进行实体关系抽取是自然语言处理(NLP)中的一个重要研讨课题,目前,该领域有多种实现的方法:(1)共现、(2)规则、(3)机器学习、(4)深度学习的方法。深度学习的技术在提高关系提取结果的准确性方面具有较高的价值。目前可以大致将现有的这些实体关系抽取的方法概括分为如下的类别:(1)基于全文本的语料库,抽取文本中所存在的非特定性的关系。(2)基于短文本语料,抽取其中某种特定的医学领域的关系,例如drug-drug interaction、protein-protein interaction。针对于第一种情况,共现的方法可以实现,针对于第二种方法可以通过规则和机器学习的方法予以实现。然而,综上两种情况,很少有研究人员们从短文本中提取非特定领域的实体关系,这对于今后该领域的科研工作中具有十分重要的意义。传统的方法对于浅层语义信息可以较好的获取,但是对于文本深层次的语义信息的学习有待提高,基于深度学习的方法可以改善这一问题,本文基于深度学习,提出了一种MAT-LSTM模型,用于从生物医学文献的短文中提取非特定实体关系。主要工作如下:首先通过实验语料并结合PubMed中的文本语料,得到词嵌入特征,使用已有的工具——word2vec,同时提取出position embedding,合并两类特征作为模型的输入,通过双向LSTM层,输出的信息先经过“词粒度”注意力机制层进行解析,然后进入到“句子粒度”的注意力机制层,最后经由softmax函数进行n分类的映射,预测相应类别。实验分为验证实验和应用实验,针对于验证实验,数据来源于三个数据集,两个BioCreative基准数据集和一个BioNLP基准数据集,以此来验证所提出的模型MAT-LSTM的有效性,由于以上的任务已有研究者们发表成果,并与他们进行了比较,取得了不错的效果;针对于应用实验,将MAT-LSTM模型实际应用于提取PubMed文献中包含的非特定关系。通过使用所提出的模型从PubMed中提取的结果大多由专家验证,表明MAT-LSTM模型的实际价值。