基于互联网信息的医疗知识库提取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:justmxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学是与人类最为息息相关的科学之一。为了提高医学诊疗的能力与水平,医学信息化成为当今热点。医学信息系统的构建,必须要有医学知识库的支撑。而知识库构建的关键,在于知识获取。医学知识一般蕴含在自然语言文本之中,这些内容人类可以方便地理解,但机器却不行。只有经过信息提取,才能将医学知识其转换为结构化数据,被机器所利用。信息提取的首要步骤在于命名实体识别,然而公开医学语料的缺乏使得这项工作困难重重。已有的工作大都依赖于少量人工标注的文本,不具备很好的推广性。本文认为,使用自动方法构建较大规模的语料是一种更合理的选择。互联网是大量数据的聚集地,存在着许多医学网站。这些网站中存储着包含医学知识的医学文本,可以当作无标注语料来使用。同时,医学网站大都维护着用于搜索的医学词汇索引,这可以作为一种词典资源使用。本文使用这些资源,对命名实体识别展开了以下研究:(1)提出了一种迭代式框架来自扩展地使用互联网资源。本文考虑到自动方法能力的有限性和词典资源的非完整性,认为迭代式学习有利于提高模型的效能。在框架中,首先使用初始设置进行标注,在一轮训练后,将模型中找到的新词补充到词典当中,然后使用新词典再次标注训练,如此迭代数遍,从而提高最终模型的识别精度。(2)提出了一种融合通用模型和领域词典的自动标注方法。互联网资源虽然数量众多,但缺乏标注,只有对其进行标注后才可使用。如果使用通用模型对其进行标注,由于领域不同,效果会出现很明显的下降。为此,本文在通用模型中融入了词典资源,有效提高了领域文本标注的准确性。同时,模型具有只读特性,适合在迭代框架中使用。(3)进行了增量式命名实体识别模型的研究。本文考虑到互联网较大的文本规模和迭代式的框架,如果采取传统方法构建模型,那么就必须每轮重新训练,时间代价过于高昂。因此,本文使用了平均感知器这样一种在线算法来进行增量训练。在模型中,本文引入了词法特征、词缀特征、词表示特征等多种特征。本文对不同参数形式的特征进行了实验,说明了这些特征的有效性。(4)开展了命名实体模型压缩的研究。本文针对模型特征数量过多的问题,提出了一种启发式的方法对模型进行压缩。本文考虑到感知器模型的特点,使用更新次数对特征进行屏蔽,从而缩减模型的规模。实验表明,本文方法可以有效减少模型大小,同时保持精度基本不变。
其他文献
分布式对象技术是伴随网络而发展起来的一种面向对象技术,是分布式计算技术与面向对象技术的结合。分布式对象技术研究分布在网络上的各个节点对象如何写作,共同完成任务。OM
信息隐藏技术目前已成为国内外科学研究的热点。信息隐藏技术是将数字、序列号、文字、图像等标识信息嵌入到载体数据中,达到版权保护及版权跟踪的目的。此外,信息隐藏技术还
考古遗址勘探、挖掘过程中所产生的各类遗迹、遗物信息随着时间的推移正面临逐渐消亡的困境,在考古遗址应用三维数字建模技术,不仅可以满足考古发掘、保护、研究和展示等各层
随着计算机技术全面进入3D时代,针对虚拟人的研究引起越来越多学者的关注。这一课题在影视动画、虚拟现实、工业设计等方面具有广阔的应用前景。人体模型由线框模型向3D分层
当今网络飞速发展,每天网页数量以几何级方式增长,搜索引擎得到了越来越广泛的应用。通用搜索引擎解决了一部分信息搜索的问题,但是随着通用搜索引擎返回页面的急剧增多,用户
高校教师的职称评定工作每年都在进行,建立一个能够提高教师职称评定工作效率的系统是学校管理职称评定部门的一个迫切需求。论文对当前的教师职称评定工作进行了分析和研究,
在互联网和Web之后,网格计算成为了网络互联时代的又一次技术革新。网格计算试图把全球互联网范围内的各种资源按需求进行共享与整合,其中的资源包括计算资源、数据资源、存
计算机网络的发展给人们的生活带来了便利,但是,也提出了许多挑战,网络规模的复杂性日益扩大及设备要求越来越高,因而,导致其发生故障的可能性也越来越大,严重的会造成网络瘫
随着现代企业信息化进程的不断推进,信息量越来越庞大。非结构化数据的大量涌现,使得对数据的管理变得更加复杂。企业中的许多信息以非结构化的形式分布在企业各个角落,包括
随着信息技术的快速进步,各种复杂系统大量涌现,以复杂网络理论为基础的网络科学研究也随之得到加速发展。作为网络科学领域的重要问题之一,链路预测主要研究网络中尚未形成连边