医学领域知识抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:super_sxw777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识抽取是将信息源中的知识进行分析、识别、理解、关联的过程,而抽取自然语言文本中的实体和实体关系是知识抽取的一个重要研究内容。在通用领域,从互联网等无结构文本中抽取实体与实体关系的抽取方法,通常综合应用了词性标注、命名实体识别、文本分类等诸多自然语言处理技术,已被广泛应用于构建知识图谱。对于医学领域,虽然临床诊疗记录、医学文献等医学文本中积累了海量的医学知识,但由于医学领域中知识抽取的复杂性和应用标准的严格性,目前绝大多数医学知识库依旧依赖于专家手工构建。因此,应用于医学领域的知识抽取方法亟待进一步的研究。本文从自然语言处理角度出发对医学文本中医学知识抽取面临的实际问题进行研究,目标是更准确地从医学文本中自动抽取医学领域实体和实体关系。研究将医学领域知识抽取分为三个主要步骤:首先从医学文本中抽取实体描述,然后将抽取的医学实体描述对应到标准实体上,最后从医学文本中抽取关系以建立标准实体间关联关系。此三步分别对应实体识别(Entity Recognition)、实体标准化(Entity Normalization)、关系抽取(Relation Extraction)三个自然语言处理任务。本文的主要研究内容包括以下几个方面:首先,本文对医学领域的实体抽取问题进行研究。由于临床医学文本中的风险因子实体具有多种不同的描述方式,传统用于抽取短语描述的序列标注方法难以处理。针对实体描述方式的差异性问题,本文按照描述方式的不同将风险因子实体重新分类,提出了基于描述方式的实体抽取方法,在序列标注方法的基础上分别构建规则或机器学习模型进行抽取。实验结果表明,该方法能够从医学文本中抽取复杂描述方式的实体,在i2b2 2014心脏病风险因子抽取评测任务上微平均F值达到92.68%,在不加入额外人工标注的方法中取得最佳效果。其次,本文对医学领域的实体标准化进行研究。本文具体研究如何将医学文本中的实体描述对应到医学知识库中标准实体的问题。以往研究主要为规则或浅层机器学习方法,对实体标准化通常停留在词法层面而较少涉及语义。针对一些实体语义相同而词法不同的问题,本文提出一种基于卷积神经网络的排序学习方法,首先采用一种规则过滤方法构建候选集合,然后通过卷积神经网络学习候选集合中实体和实体描述的向量表示,最后使用排序学习方法进行重排序,将不同的医学实体描述映射到标准医学实体上。实验结果表明,该方法在NCBI疾病数据集、Bio Creative V CDR数据集、Sh ARe/CLEF电子病历数据集上与基准方法相比均有更好性能,能够学习实体描述和标准实体之间的语义相似性。然后,本文对医学领域的实体关系抽取方法进行研究。通用领域关系抽取研究主要集中在单句关系抽取上,较少研究文档级关系抽取问题。针对文档级关系抽取中关系描述跨句的问题,本文先提出一个基于分段式卷积神经网络的有监督学习模型。该模型对句内和跨句的关系进行统一学习,采用注意力机制与领域专业知识提高性能,不依赖于句法标注或特征工程。我们在CDR公开数据集上进行了实验,结果表明方法能够有效抽取跨句实体关系。在此基础上,针对单示例表示的文档级关系抽取样例缺失问题,本文提出了一种基于循环神经网络的多示例弱监督模型。该模型首先以分段式有监督深度卷积神经网络为基础来学习单示例表示,然后采用多示例学习方法学习多个示例的整体表示。在公开数据集的实验结果表明,多示例弱监督方法能够克服有监督模型仅能分析最短文本片段的不足,提高了医学文档中实体关系抽取的性能。最后,本文对基于医学知识图谱的药品合用关系进行研究。在上述研究的基础上,本文以分析药品合用关系为目标,首先提出一个面向诊疗的医学知识图谱框架,然后在该框架下应用知识抽取方法填充知识图谱,最后基于知识图谱进行药物合用关系分析。其中,针对关系抽取语句中缺失头实体的问题,本文提出了基于循环神经网络的头实体缺省句关系抽取方法,避免了传统二元关系方法需要同时确定两个待分类实体的位置的问题。实验结果表明,本文方法相比基准方法能更有效的抽取在头实体缺省情况下的实体关系。
其他文献
针对矿用DC-DC电路软故障模式的高效故障特征参数获取难的问题,基于测点信号的获取便利性、故障特征提取简单性、故障分类高效性,给出基于时域特征的软故障诊断方法。首先分
随着社会经济的快速发展,各行各业都取得了很大的进步,建筑行业同样也不例外,在此过程中不动产测绘技术被越来越广泛地应用到建筑工程当中,该技术的使用对整个建筑工程的质量
伴随能源资源日渐短缺、生态失衡加快,开发新能源驱动技术是汽车能源动力系统可持续发展的唯一途径。电动汽车产业在关键技术领域的不断突破,必将取代传统内燃机汽车市场地位,而研发基于线控的四轮独立驱动/转向(4WID/S)技术将为其提供更广阔的发展空间。本课题着眼于电动汽车发展趋势,以提升驾驶操控性和行驶稳定性为目标,从车轮转角分配和转向电机执行控制两个层面出发,研究了4WID/S电动汽车线控转向(SBW
随着现代教育装备的不断发展,学校的课堂教学也发生了本质变化,过去教师满堂灌、死抠课本导致课堂气氛死气沉沉的情况已经有所改变。现代化教学手段让不好理解的知识变得越来越
21世纪是一个充满机遇和挑战的世纪,是科学技术更加发达,竞争更加激烈,社会对人的素质要求更高的世纪。江泽民同志曾指出:“迎接未来科学技术的挑战,最重要的在于创新。”“创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力。”由此我们可以清楚地看到,创新是新时代的主旋律。创新意识、创新精神、创新能力的培养在教育,特别是基础教育。因此,开展创新教育,培养学生的创新意识、创新精神和创新能力,提高学生的素
2010年笔者有幸参加深圳市教师海外培训班,到美国加州学习了3个月,其间通过"海外培训班"所在的大学—Concordia University Irvine的安排和帮助,参观了当地多所中小学,观摩学习
理条机是生产条形名优茶的必要工序设备,但传统理条机主要依靠人工操作,存在劳动强度大等问题。本设计在原来的6CLZ 80/18理条机的基础上加以改进,通过PLC一体机,实现理条时