基于机器学习的蛋白质命名实体识别和相互作用关系抽取的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：march2th

【摘要】

：

由于生物医学文献不断增加，生物医学文本挖掘领域的相关研究逐渐活跃开来。生物医学文本挖掘的意义不仅在于生物信息的管理上，更重要的是在于生物文献中的知识发现和利用，从而增

【作者】

：

滕达

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2012年期

【关键词】

：

机器学习生物信息学文本挖掘命名实体识别蛋白质磷酸化多分类器集成

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于生物医学文献不断增加，生物医学文本挖掘领域的相关研究逐渐活跃开来。生物医学文本挖掘的意义不仅在于生物信息的管理上，更重要的是在于生物文献中的知识发现和利用，从而增进对生物医学现象和问题的了解及认识。本文主要从生物医学命名实体识别和生物医学实体关系抽取两方面开展研究工作，具体内容如下：　　生物医学命名实体识别是判断并辨别生物医学领域中出现的专有名词，如：细胞、基因、药物、疾病、组织、RNA和蛋白质等名称。本文提出了基于词典和多分类器叠加法的蛋白质／基因实体识别方法BNERTagger。该方法分成三个主要步骤：第一步是预处理，主要是去停用词、去标点符号、小写转换以及词性标注等；第二步是词典匹配，主要是采用现有的蛋白质和基因名称词典进行匹配，并作为特征输入到多分类器中；第三步是多分类器叠加处理，主要是利用多种机器学习的方法进行实体识别。BNERTagger中的多分类器叠加法是对已有的多分类器投票法的改进，且利用已有的生物医学词典提高了方法的查准率。计算实验反映了，我们的方法获得了89.9％的查准率和89.1%的查全率，高于已有的方法。　　生物医学实体关系抽取的目的是从生物医学文本中识别实体，进而抽取实体之间的关系。在生物医学实体关系中具有重要地位的是蛋白质相互作用关系抽取，本文研究的是蛋白质磷酸化作用关系的抽取，磷酸化信息抽取是将蛋白质激酶、磷酸基（或称磷酸位点）和蛋白质底物等信息从文本中抽取出来。本文提出了两个蛋白质磷酸化作用关系抽取方法，分别是基于机器学习和规则的方法，以及基于词典扩展的改进方法。两种方法主要思路是，首先利用自然语言处理技术对文本进行预处理，然后使用基于多分类器叠加的BNERTagger方法进行蛋白质实体命名的识别，其中的改进方法还利用了磷酸化数据库Phospho.ELM来构造词典。计算实验反映了，两种方法取得的结果都好于已有方法，其中改进的方法获得了92.7%的查准率和82.5%的查全率。　　本文的创新和贡献主要有：1）提出了一种基于词典和多分类器叠加的蛋白质／基因实体命名识别方法BNERTagger，该方法利用多分类器叠加方法来弥补多分类器投票方法的不足，且利用已有的生物医学词典来提高识别准确率；2）提出了两个蛋白质磷酸化作用关系抽取方法，主要是利用了基于多分类器叠加的BNERTagger方法和构建了磷酸化蛋白质词典。

其他文献

基于Harmony的提前编译

Java语言是一种优秀的面向对象程序设计语言，它具有跨平台、健壮安全和通用性等诸多优点。基于这些优点，Java语言在个人PC、游戏控制台、数据中心和互联网等很多领域得到了广泛

学位

提前编译异常注册常量区构造动态加载Java程序响应能力

互信息与精粒度并行遗传算法在医学图像配准中的应用研究

医学图像配准技术是当代医学图像处理技术的一个重要方面，通过将不同模态的医学图像有机地结合起来，可以为医生提供更加丰富的诊断信息。基于互信息的医学图像配准方法得到了广

学位

图像配准互信息遗传算法粗粒度并行相似性测度

基于蚁群算法的参考天空分类优化方法研究

近些年来，能源问题越来越趋于紧张，如果可以充分的利用自然光，对节约能源将起到十分重要的意义。而天空亮度分布正是利用自然光的一个非常重要的因素。本文将在国内外对天空亮度

学位

蚁群算法网格划分正态分布模式搜索策略天空亮度分布模型

基于免疫计算的特征选择算法及其应用研究

近年来，随着计算机技术、网络技术的飞速发展，对数据和信息以电子格式存储发生了急剧地增长，这些数据毫无疑问是有价值的资源。然而随着信息量的不断扩大和对识别精度要求的逐步

学位

特征选择免疫计算人工免疫系统辅助医疗数据挖掘

网络协议识别特征提取技术研究

网络协议识别是网络管理、网络安全、网络测量等领域的重要基础，随着互联网迅速普及，新的网络应用层出不穷，越来越多的私有网络接入互联网，大大增加了网络流量的复杂性，在这种环境

学位

网络协议识别系统自动特征提取程序分析

流媒体Web Service调度策略的研究与应用

随着Internet的迅猛发展与普及，人们对Internet上所提供的信息类型不再局限于文本和图片，而是更加青睐于流媒体信息。然而由于运行平台、开发工具以及数据格式的差异性，造成了流

学位

Web ServiceGT4系统集成XML联合调度

基于BIC和DWCM的零水印算法的音频版权保护研究

互联网和多媒体处理技术的迅速发展，使得多媒体等数字作品的版权保护显得日益重要。在音频版权保护研究领域，一种被广泛研究的技术是数字音频水印技术。在本文中，为了使水印技术

学位

音频分割版权保护双向小波系数映射（DWCM）抗大面积剪切

多神经网络同步算法研究

在自然界中，有很多同步现象，同样，神经网络也有同步现象存在。神经网络跟人工智能等众多应用领域结合起来，已成为潜力巨大的研究方向。在两个神经网络同步的过程中，初始状态的权值

学位

多神经网络同步组密钥交换协议身份认证

XML无线数据广播调度技术研究

近几年来,随着移动设备的迅速发展,越来越多的用户使用移动设备获取数据。移动用户可以使用手机、PDA、平板电脑通过无线技术(例如WiFi等)下载感兴趣的数据。这些数据有股票

学位

数据广播调度技术XML

非自治耗散电路系统混沌及其应用研究

分数阶和复数阶混沌动力学系统有着比整数阶系统具有更为丰富、复杂的动力学特性，同时还具有整数阶一样的随机性和不可预测性增加等优点。因此，近年来基于分数阶和复数阶微积分动力学系统的研究取得了不少的理论和实践成果。分数阶和复数阶混沌电路系统及其控制与同步、混沌保密通信等具有广阔的应用前景而受到人们的广泛关注。本文以简单的非自治耗散电路系统为研究对象，分析了分数阶和复数阶简单自治耗散系统的各种动力学行为，

学位

分数阶复数阶混沌保密通信

基于机器学习的蛋白质命名实体识别和相互作用关系抽取的研究

其他学术论文