论文部分内容阅读
生物医学命名实体识别是生物医学信息提取的基础和关键任务,准确地识别出生物医学命名实体对于基因关系抽取和生物知识发现等复杂任务有着至关重要的作用。生物医学领域的命名实体具有复杂多变的特点,这给识别任务带来了一定的困难。此外,随着生物医学的快速发展,以指数增长的文献量也给生物医学命名实体的自动准确识别带来了巨大挑战。本文基于混合模型对生物医学命名实体识别进行了研究和探索。论文的主要研究工作如下:(1)引入了包括词特征、拼写特征、浅层语法块特征和词性特征等在内的丰富语言学特征,应用于生物医学命名实体识别任务。提出了一种递增式的特征选择方法,结合序列标记模型条件随机场(Conditional Random Field,CRF)和分类模型支持向量机,研究人工语言学特征的有效性,从而选择出更适合当前模型的可靠特征集。(2)为了研究和分析深度学习在生物医学命名实体识别上的技术应用,构建了三种深层结构的实体识别模型来对比其性能。一是双向长短时记忆神经网络模型(Bi LSTM);二是深层CRF模型;三是结合了Bi LSTM序列特征提取能力和CRF句子信息提取优势的混合模型——双向长短时记忆神经网络-条件随机场模型(Bi LSTM-CRF)。此外,通过词向量与神经网络相结合的无监督方式,使原本需要复杂特征工程的识别任务更加端到端化。为了探究词义信息对生物医学命名实体识别任务的作用,引入了三种不同来源的词向量。同时以实际任务的收益为评价标准,分析了任务相关词向量的维度和领域等参数对其质量的影响。本文使用JNLPBA标准数据集作为实验语料,对生物医学命名实体识别任务的特征和模型等内容进行了研究。在不引入规则和词典的情况下,获得了74.93%的F值,验证了所提出研究方法的有效性。