论文部分内容阅读
医学是与人类最为息息相关的科学之一。为了提高医学诊疗的能力与水平,医学信息化成为当今热点。医学信息系统的构建,必须要有医学知识库的支撑。而知识库构建的关键,在于知识获取。医学知识一般蕴含在自然语言文本之中,这些内容人类可以方便地理解,但机器却不行。只有经过信息提取,才能将医学知识其转换为结构化数据,被机器所利用。信息提取的首要步骤在于命名实体识别,然而公开医学语料的缺乏使得这项工作困难重重。已有的工作大都依赖于少量人工标注的文本,不具备很好的推广性。本文认为,使用自动方法构建较大规模的语料是一种更合理的选择。互联网是大量数据的聚集地,存在着许多医学网站。这些网站中存储着包含医学知识的医学文本,可以当作无标注语料来使用。同时,医学网站大都维护着用于搜索的医学词汇索引,这可以作为一种词典资源使用。本文使用这些资源,对命名实体识别展开了以下研究:(1)提出了一种迭代式框架来自扩展地使用互联网资源。本文考虑到自动方法能力的有限性和词典资源的非完整性,认为迭代式学习有利于提高模型的效能。在框架中,首先使用初始设置进行标注,在一轮训练后,将模型中找到的新词补充到词典当中,然后使用新词典再次标注训练,如此迭代数遍,从而提高最终模型的识别精度。(2)提出了一种融合通用模型和领域词典的自动标注方法。互联网资源虽然数量众多,但缺乏标注,只有对其进行标注后才可使用。如果使用通用模型对其进行标注,由于领域不同,效果会出现很明显的下降。为此,本文在通用模型中融入了词典资源,有效提高了领域文本标注的准确性。同时,模型具有只读特性,适合在迭代框架中使用。(3)进行了增量式命名实体识别模型的研究。本文考虑到互联网较大的文本规模和迭代式的框架,如果采取传统方法构建模型,那么就必须每轮重新训练,时间代价过于高昂。因此,本文使用了平均感知器这样一种在线算法来进行增量训练。在模型中,本文引入了词法特征、词缀特征、词表示特征等多种特征。本文对不同参数形式的特征进行了实验,说明了这些特征的有效性。(4)开展了命名实体模型压缩的研究。本文针对模型特征数量过多的问题,提出了一种启发式的方法对模型进行压缩。本文考虑到感知器模型的特点,使用更新次数对特征进行屏蔽,从而缩减模型的规模。实验表明,本文方法可以有效减少模型大小,同时保持精度基本不变。