【摘 要】
:
近些年来,医学病历数据的爆炸式增长给信息检索技术带来了巨大挑战。在目前使用最多的传统检索模型中,往往忽略了文本信息中隐藏的语义结构,而医学病历数据中存在的同义词、
论文部分内容阅读
近些年来,医学病历数据的爆炸式增长给信息检索技术带来了巨大挑战。在目前使用最多的传统检索模型中,往往忽略了文本信息中隐藏的语义结构,而医学病历数据中存在的同义词、多义词等不确定因素的存在,使得用户很难快速并准确的检索到相关信息。本文鉴于医学病历数据存在的特点及其所带来的问题,主要对LSA(Latent Semantic Analysis)和LDA(Latent Dirichlet Allocation)两种语义检索模型进行研究。LSA和LDA两种模型有效克服了传统检索模型无法处理多义词和同义词的问题,对文本的潜在语义进行挖掘,根据词汇、文本、伪文本三者在语义上的关联产生检索结果,达到优化检索结果的目的。本文的研究在构建的医学领域中的语料库基础上主要包括以下几个方面:1.针对LSA模型中传统的TF-IDF权重计算方法仍旧基于线性的处理并且未体现特证词出现的位置信息对其产生的重要影响问题,提出并实现了一种基于LSA改进模型的医学病历语义检索算法。LSA改进模型在计算权重时加入非线性处理及位置权重因子,通过截断的奇异值分解建立潜在语义空间,并将词汇和文本投影在该空间中,进而提取词汇间深层次的语义关系。同时,本文提出一种基于查准率的确定最优K值的方法。实验结果表明,改进的LSA模型可以有效解决同义词的问题,提高医学病历的检索性能。2.针对传统的检索算法不能很好地处理大规模医学病历数据的问题,本文用LDA模型进行主题建模,利用Gibbs抽样进行参数推理,间接计算模型参数,获取文本在主题集上的概率分布。同时,本文提出一种确定最优主题数目T的有效方法。最后,对实验结果数据进行对比分析,验证了将LDA模型用于文本病历语义检索方面的可行性。3.针对LSA改进模型采用的奇异值分解运算时间复杂度较高并且不太适合处理动态变化的文本集及LDA模型未考虑特征词权重影响的问题,提出并实现了一种基于组合模型的医学病历语义检索算法。实验结果表明,该算法在保证召回率的前提下,可以相对提高医学病历检索的准确度,验证了提出的合理性。
其他文献
在银行系统,如中国建设银行,自动指纹识别系统作为一种业务辅助系统和安全内控机制得到了普及并发挥了很好的作用。尽管自动指纹识别的算法研究和开发应用取得了很大进展,但是在
协议是网络的血液和生命,计算机网络的发展是网络协议设计和开发的结果。随着通信网络向着高速度、高性能、多媒体等方向的发展,协议变得越来越复杂,通信协议的设计已经成为通信
随着信息处理技术的发展,数据挖掘引起了普遍的关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。但是由于数据挖掘结果的难以理解性
定性空间推理(Qualitative Spatial Reasoning)研究的是人类对几何空间中空间对象及其关系定性认知常识的表示与处理,它是定性推理和空间推理相结合的产物。它的主要研究内容
Web服务是分布式计算中一种成熟的技术,它是网格体系结构OGSA的基础,Web服务和网格技术的结合使网格的发展有了质的飞跃。但是,在基于OGSA体系结构的网格虚拟组织中,Web服务是零
网格计算是近年来得到快速发展的广域网络计算技术。研究人员试图将很大范围上地理分布的异构计算机系统集合在一起形成一个大规模的计算平台,我们称之为网格(Grid)。通过这
目前,国内主要采用一种效率低、精度差、劳动强度大的轨距尺检测铁轨几何参数,包括轨距、超高、三角坑,而国外技术、成本非常高的大型轨检车还不能在国内普及。同时,铁路运输多次
在信息资源规划中,需求分析的成果对系统建模以及后期的系统开发至关重要,虽然在需求分析中主要是业务人员之间、业务人员与系统分析人员之间的研讨过程,但是由于各种人员的经验和专业素质的不同,导致了需求分析的成果因人而异。本文即对信息资源规划中的需求分析进行了研究和改进,令其能够通过更好的理论和方法来指导和协助业务人员和系统分析人员的工作,使需求分析的成果能更真实、更规范的反映出用户的需求。首先对用户视图
分布式异构空间信息的共享是当前GIS应用的研究热点,其中,解决空间数据的格式、结构和语义的不一致,实现多数据源的有机集成是其中的关键问题之一。本文采用互操作集成模式,通过
多年来计算机图形处理器(GPU)以大大超过摩尔定律的速度高速发展。图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发