乳腺疾病电子病历命名实体识别方法研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:eagle453
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历以电子化的方式记录了患者诊断治疗的全过程,是医疗信息系统的核心。乳腺疾病是一种常见的女性多发疾病,其中乳腺癌已成为女性主要致死原因之一,每年约有170万新发乳腺癌患者,病死率达33.5%。乳腺疾病患者的电子病历记录了诊疗过程中有关病史、检查、手术等各种医疗信息,分析研究这些数据,对提高乳腺疾病早期筛查率、诊断准确率和治愈率有着重要意义。
  但是,由于实际临床电子病历中存在大量的非结构化的自然语言表述,很难直接进行分析利用,因此电子病历结构化是目前研究的热点问题。命名实体识别是实现电子病历结构化的首要步骤,通过实体识别技术抽取乳腺疾病电子病历文本中相关医学概念实体,可以有效利用文本中蕴含的乳腺临床医疗知识,为后续医疗知识图谱构建和医疗辅助系统开发等奠定基础。
  目前,虽然深度神经网络技术在命名实体识别的应用中取得了一定成果,但要获得较好的识别效果需建立在大量已标注数据训练的基础上。由于电子病历属于特定专业领域文本数据,其语料标注不仅需要耗费大量时间,还需要耗费具有较强医疗专业知识的人力,获得大量已标注的临床医疗数据存在困难。同时,由于神经网络自身结构特性和数据分布问题,模型识别性能存在上限,不能满足临床医疗应用中对模型输出结果的高准确性要求。
  针对上述问题,本文研究了乳腺疾病电子病历命名实体识别方法,主要研究内容包括以下三方面:
  1)乳腺临床电子病历数据分析与预处理
  对乳腺临床电子病历数据从病历内容、结构特征、语言特征和语义特征等进行分析。根据分析结果完成对电子病历数据的清洗与整合;并完成乳腺临床实体类别定义和实体标注工作;采用Word2vector完成文本向量化处理。
  2)提出了一种基于多标准主动学习的乳腺电子病历实体识别方法
  针对医疗文本命名实体识别数据标注专业性要求高、标注成本大的问题,该方法采用主动学习框架减少对训练语料的需求。采用更轻量级的GRU结构代替常用的LSTM构建了BiGRU-CRF模型进行实体识别,并运用增量式训练模式加快主动学习过程中迭代训练的速度;从标注数据量、句子标注成本、数据采样均衡性等三个方面进行考虑,提出了一种综合性的主动学习选择策略,在聚类的基础上基于不确定性采样和句子标注成本度量进行样本选择,并提出了更适用于神经网络实体识别模型的不确定性计算方式和句子标注成本度量规则。该综合性策略使选择的样本集具有数据代表性高、标注性价比高、数据分布均衡等特点,提高了未标注数据的有效利用率。在真实医院的临床乳腺疾病电子病历文本上进行实验,结果表明该主动学习方法在最好的情况下,仅用随机选择方法的约39.52%的数据量就可以达到相同的准确率。
  3)提出了一种基于多智能体强化学习的乳腺病历实体识别标注增强方法
  针对神经网络模型存在性能上限,不能满足临床医疗应用中对模型输出结果的高准确性要求的问题,提出了多智能体强化学习方法对错误标签进行修正,进一步提高实体识别性能。为了适应多个序列标注协同预测的情况,该方法利用部分可观测马尔科夫决策过程建立了多智能体强化学习模型。模型学习采用适用于高维动作空间的深度确定性策略梯度算法,使得在序列标签排列组合而产生指数级动作空间的情况下,仍然能够寻找到最优价值函数进行收敛,并对价值网络和策略网络都采用双网络形式,使网络快速向优化目标靠拢。在真实医院的临床乳腺疾病电子病历文本上进行实验,结果表明该方法能够进一步提升实体识别的性能,在主动学习方法最终训练所得模型的基础上又提高了4.45%的准确率。
其他文献
在复杂网络的研究领域里,社区发现是热门的研究方向,研究划分复杂网络的社区结构,对于分析网络中的结构、功能和演变具有非常重要的作用。复杂网络的社区,即是一些复杂网络中紧密相连的子网络,外部的网络连接相对稀疏。社区结构,存在于社交网络、生物网络、铁路网络与论文引用网络等网络中,能够反映出复杂网络里的动态特征和功能。对复杂网络进行社区结构的挖掘,可以应用于各种各样的领域中,比如说个性化推荐、蛋白质功能检测、交通网络规划与信息检索等。
  在社区发现领域中,近些年的发展中涌现出不少优秀的算法,解决了大部分的
人一生中大约有三分之一的时间处于睡眠状态,睡眠有助于缓解身体疲劳,恢复精力,与人体的健康息息相关。据研究表明,好的睡眠习惯有助于延长人类的寿命。但令人担忧的是,近年来随着社会快速发展,人们的睡眠质量呈梯度式下滑。造成这种现象有两个主要原因,一是因为工作、生活节奏的加快,让人们忽略了对于睡眠的关注,二是因为缺乏有效的睡眠分析帮助人们了解自身的睡眠状态。为了帮助人们更好地了解自身的睡眠状况,本文基于智能床垫采集的信号进行了睡眠分期研究;为了及时了解睡眠出现的变化趋势,本文在睡眠分期的基础上,进一步研究了睡眠时
【摘要】泰语学习者想要更好的提高泰语水平,首先必须培养良好的阅读习惯,解决泰语阅读中存在的词汇、句子、语篇问题, 熟练掌握阅读技巧,提高泰语阅读的速度和质量。该文目的是为了:对泰语阅读技能进行研究,发现泰语阅读的问题,找到解决的方法,不断提高阅读水平和泰语阅读技能。  【关键词】提高泰语阅读技能  【中图分类号】G643 【文献标识码】A 【文章编号】2095-3089(2016)03-0082-
期刊
【摘要】“慢阅读”是从文字中发现更多意义和乐趣的一种方式。在阅读教学中,教师要把握好课堂教学节奏,适时等待,给学生留足读、品、议、练的时间与空间,并进行有效评价,让学生思考有方向,有深度,有广度,真正体现语文的扎实、朴实和真实,让学生在慢阅读的境界中获取快乐。  【关键词】“慢”耕耘 阅读教学 等待  【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3089(2016)03-0
期刊
【Abstract】The previous researchers have done in great details of expertise teaching and the novice teacher. But few article have discussed how novice teacher can learn from the experienced one. The pu
期刊
【摘要】自新课改以来,素质教育得到了越来越高的重视,许多的教育工作者正在努力尝试着把教育的目标从应试教育逐渐转移到素质教育上,把教学的重点放在了对学生学习能力和实践应用能力的培养上。随着新课程标准的深入推进,教育工作者必学转变教学观念,思考和探索新的教学出路,才能推动我国教育事业的发展进程。通过对目前高中数学的教学现状分析来看,不论是教师的教学模式上还是学生的学习方法上都存在着诸多问题,教师和学生
期刊
【摘要】随着《基础教育课程改革纲要 (试行)》的深入开展,如今的课堂教学较以往发生了巨大的变化。这种变化不仅体现在教师的教育教学观念的转变,以及由此引发的教师教学行为的改变上,更重要的是课堂教学过程中学生学习方式的改变,带来的学生的学习生活及学习效率的全面提高。本文在对有效学习的理论进行探讨的基础上,对当前学生在化学课堂学习过程中存在的低效或无效行为,进行了深入细致的分析,并就改变这种状况,教师应
期刊
【摘要】几何直观是2011版义务教育数学课程标准提出的十个核心概念之一。小学生的思维特点决定了他们在理解抽象概念、进行逻辑思维时,需要借助几何直观。本文针对调查研究发现的问题,从教学的角度提出了培养小学生几何直观能力的策略:第一建立数与形的联系;第二借助图形描述问题;第三利用图形揭示数量关系,感悟数学思想。  【关键词】几何直观 图形  【中图分类号】G623.5 【文献标识码】A 【文章编号】2
期刊
k步可达查询与现实生活息息相关,是目前研究者的热点关注问题之一,能够应用于生产生活中方方面面,例如无线传感网络,生物信息网络,社会交际网络等等。k步可达查询可以看成可达查询+长度约束k值。相比于传统的可达查询,k步可达查询能够给信息查询者提供更多更有效的信息。k步可达查询用于在给定的有向无环图中回答两点之间是否存在长度不超过k的路径。然而,现有方法处理k步可达查询时,存在索引规模大或者查询效率低的问题。
  为了解决现有方法存在的问题,本文首先提出一种部分点构建双向最短路径索引的策略,其次基于该策略
知识图谱是人工智能研究和智能信息服务基础核心技术,能够赋予智能体精准查询、深度理解与逻辑推理等能力。知识图谱由(实体,关系,实体)形式的结构化三元组为基本单位构成,从大规模的非结构化文本中抽取结构化的三元组知识来构建知识图谱,并融入实际自然语言任务是当前研究的热点问题。
  从文本中获取三元组知识的常用方法是先识别实体,然后再进行关系抽取。本论文重点研究了实体间关系抽取的方法,提出了基于注意力机制的改进算法。针对行业应用,给出了从领域文本数据提取领域知识模型,建立知识图谱的可行方案,并通过安监领域的