论文部分内容阅读
由于生物医学文献不断增加,生物医学文本挖掘领域的相关研究逐渐活跃开来。生物医学文本挖掘的意义不仅在于生物信息的管理上,更重要的是在于生物文献中的知识发现和利用,从而增进对生物医学现象和问题的了解及认识。本文主要从生物医学命名实体识别和生物医学实体关系抽取两方面开展研究工作,具体内容如下:
生物医学命名实体识别是判断并辨别生物医学领域中出现的专有名词,如:细胞、基因、药物、疾病、组织、RNA和蛋白质等名称。本文提出了基于词典和多分类器叠加法的蛋白质/基因实体识别方法BNERTagger。该方法分成三个主要步骤:第一步是预处理,主要是去停用词、去标点符号、小写转换以及词性标注等;第二步是词典匹配,主要是采用现有的蛋白质和基因名称词典进行匹配,并作为特征输入到多分类器中;第三步是多分类器叠加处理,主要是利用多种机器学习的方法进行实体识别。BNERTagger中的多分类器叠加法是对已有的多分类器投票法的改进,且利用已有的生物医学词典提高了方法的查准率。计算实验反映了,我们的方法获得了89.9%的查准率和89.1%的查全率,高于已有的方法。
生物医学实体关系抽取的目的是从生物医学文本中识别实体,进而抽取实体之间的关系。在生物医学实体关系中具有重要地位的是蛋白质相互作用关系抽取,本文研究的是蛋白质磷酸化作用关系的抽取,磷酸化信息抽取是将蛋白质激酶、磷酸基(或称磷酸位点)和蛋白质底物等信息从文本中抽取出来。本文提出了两个蛋白质磷酸化作用关系抽取方法,分别是基于机器学习和规则的方法,以及基于词典扩展的改进方法。两种方法主要思路是,首先利用自然语言处理技术对文本进行预处理,然后使用基于多分类器叠加的BNERTagger方法进行蛋白质实体命名的识别,其中的改进方法还利用了磷酸化数据库Phospho.ELM来构造词典。计算实验反映了,两种方法取得的结果都好于已有方法,其中改进的方法获得了92.7%的查准率和82.5%的查全率。
本文的创新和贡献主要有:1)提出了一种基于词典和多分类器叠加的蛋白质/基因实体命名识别方法BNERTagger,该方法利用多分类器叠加方法来弥补多分类器投票方法的不足,且利用已有的生物医学词典来提高识别准确率;2)提出了两个蛋白质磷酸化作用关系抽取方法,主要是利用了基于多分类器叠加的BNERTagger方法和构建了磷酸化蛋白质词典。