论文部分内容阅读
随着医疗信息系统的普及,存在大量相对松散且难以定量分析的EHR电子健康记录,真实地描述了患者的临床表现情况。本文使用EHR作为查询输入,检索与查询相关的医学文献进行输出,帮助医生更快更准确地进行医疗决策。这项任务同时得到了信息检索界和生物医学信息界的高度关注,并连续在近几年的TREC测评比赛中设立此项任务。医学检索一直是信息检索领域的研究热点。给定的临床真实数据具有以下特点:a.用作查询的EHR包含Summary,Description以及Note三种类型并且长短不一;b.特定词汇重复出现;c.医学数据集和查询主题中包含大量专有名词和缩略语,格式和内容普遍存在不规范和不完整问题。然而,在传统文档长度归一化方法中,模型本身具有一定的偏好性,如果参数设置一个很小的值,它对于短查询效果较好;反之,则对长查询更有利。现有伪相关反馈模型则不能同时考虑到候选词在反馈文档中的重要程度和候选词与查询词之间的邻近位置共现关系。鉴于此,本文进行了相应的研究与改进,具体贡献体现在以下两个方面:第一,在概率模型基础上,设置一个动态函数,代替取值固定的普通参数调节,动态函数需满足(1)查询词只有一个时,必须包含该词的文章才能被检索出来。(2)函数值是递减的,随查询长度增加而减少。(3)该函数是有界的。同时采用一个新的平均特定组频的概念,得到一个新的模型来进行词区别。第二,为了更好地解决与查询术语具有较高位置关联度的词更可能与查询主题相关这一问题,本文使用超空间模拟语言(HAL)模型,设置固定窗口大小,分别计算该窗口内每个候选扩展词与初始用户查询词的邻近词权重,将词邻近共现权重融合到Rocchio扩展权重中,提出了 HRoc模型。最终使用归一化方法计算候选查询词得分,选取前N个候选查询词作为扩展查询词来完善用户的查询意图。本文所提出的改进模型都在TREC临床决策支持追踪数据集上进行了实验,结果表明在大部分评价标准上,本文所提出的方法具有可行性和有效性。