面向医疗文本检索的查询重构技术研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:tangjun6422443
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的爆炸式增长促进了信息技术的快速发展,在传统的医疗行业中,信息化的进程也广受关注。临床决策支持系统是一个医疗信息技术的应用系统,可以将病人描述作为查询找到相关文档,辅助医生做判断。通过这些技术手段,临床决策支持系统可以有效挖掘医疗中的深层数据,提高医疗服务的效率,降低医疗的事故率。查询重构一直是文本检索领域的热点问题。但过去关于查询重构技术的研究工作,主要侧重于查询扩展技术的研究。查询扩展技术能有效解决词不匹配问题,在短文本查询中行之有效。但在医疗文本检索中,由于作为查询的电子病历以自由文本的形式存储,包含着丰富而复杂的病人描述信息,可能存在信息干扰或信息冗余的问题,仅使用查询扩展技术不能有效解决这个问题。对此,本文研究了面向医疗文本检索的查询缩减技术,第一次针对查询进行分类,从而结合查询扩展和查询缩减的技术手段,优化现有的查询重构算法,为查询重构提供了新的思路。本文的具体工作和研究成果包括:1.设计了面向医疗文本的四种查询类型,并建立相应的语义映射工具。本文深入研究了查询词中医学词和否定词的作用,设计了四种查询类型,分别是正向类型的查询、负向类型的查询、停用词类型的查询和普通类型的查询。基于此建立了语义映射工具,用于支持后续的查询重构算法。语义映射工具依赖于医疗文本的特性,将查询词自动标注为相应的查询类型。2.创新性地提出查询分类,设计了基于阈值划分的查询重构算法。本文针对医疗长文本查询存在的问题,创新性地提出了查询分类的思想,设计实现了基于阈值划分的查询重构算法,第一次结合了查询扩展和查询缩减技术。基于阈值划分的查询重构算法将查询中的句子作为处理的候选集。首先,利用语义映射工具对候选集进行自动标注。然后,根据标注结果通过阈值的自动选择将句子分为两类,分别是需要查询扩展的类别和需要查询缩减的类别。最后是针对不同类别相应地修改检索模型的分数,实现查询重构。通过本文设计的实验证明,基于阈值划分的查询重构算法,对比利用原始查询和伪相关反馈查询扩展后的查询,检索效果均有所提升。3.提出了基于无监督学习的查询重构算法。为了挖掘查询词的潜在含义,本文在阈值划分查询分类的基础上,引入无监督学习的查询分类,提出了基于无监督学习的查询重构算法。首先,计算查询中每个句子的重要性。然后利用无监督分类算法对查询自动分类,同样分为两类,分别是需要查询扩展的类别和需要查询缩减的类别。最后结合查询扩展和查询缩减技术实现查询重构。实验证明,基于无监督学习的查询重构算法能更深入理解查询词的意图,达到更优的效果。在2016年的TREC CDS公开数据集上,与原始查询相比,NDCG指标提升了22.88%。最后,基于本文提出的两个查询重构算法,我们开发搭建了一个医疗电子病历的查询重构原型系统。该系统可以对比两种算法的异同,并可视化展示本文的实验结果。
其他文献
以犬细小病毒基因组DNA为模板,应用PCR方法扩增了全长VP1基因,PCR产物经纯化和NotⅠ/BamHⅠ双酶切后与同样处理的真核表达载体pIRES进行连接,转化到感受态细胞JM109中,筛选了
条件价值评估法(contingent valuation method,CVM)是一种通过假想市场来进行生态系统服务评估和环境物品价值评估的方法,其对地方经济决策有着重要影响。本文以西安曲江遗址公
目的:探讨双黄连粉针外用治疗恶性肿瘤并发带状疱疹的临床疗效及应用价值.方法:63例患者随机分成两组,治疗组35例应用双黄连粉针外用治疗,对照组28例应用西药治疗,观察比较两
1817年,黑格尔在德国海德尔堡大学讲演“美学”时,第一讲就指出:“艺术的科学在今日比往日更加需要,往日单是艺术本身就完全可以使人满足,今日艺术却邀请我们对它进行思考,目的不在
报纸
从绝对数量上看,无声电影时期是莎士比亚电影最辉煌的年代。英国、法国、意大利和美国都参与了莎士比亚默片的制作并留下了许多的经典作品。无声电影时期莎士比亚与电影的相遇