基于分类的蛋白质功能预测技术研究

被引量 : 0次 | 上传用户:xax_616
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是构成细胞的一种大分子物质,含量仅次于水。它们在生物体中具有一些很重要的功能,包括组成器官、催化代谢生化反应和维护细胞环境等。作为生命活动最重要和最多样的大分子,蛋白质功能的研究对新药的发现、作物改良、甚至人工合成生物化学物质如生物燃料等具有重要的意义。用实验手段预测蛋白功能代价高、耗时长,不能满足当代生命科学的发展需要。现代高吞吐量的分子生物学实验产生的海量数据财富使计算手段预测蛋白功能变得非常重要,现代生命科学的研究已经变为一门数据驱动的学科。论文研究使用机器学习的分类技术预测蛋白质功能。将每个蛋白建模为属性空间的点,或者显式描述为一个属性向量,或者使用模式分析的核方法计算两个蛋白的相似核。对于每个蛋白,功能注释数据库注释它具有哪些功能,一般没有注释它没有哪些功能。蛋白功能预测基于已知蛋白的注释学习分类模型,预测未知功能蛋白,为生物学家提供实验参考。本文使用基于统计学习理论,有很好泛化性能的支持向量机作为基本分类器进行功能预测。蛋白质属性空间的复杂性使得预测任务必须学习一个非线性分类器,解决问题的核方法将属性空间使用核函数映射到一个高维的特征空间,使得在特征空间可用线性分类器进行分类预测。论文基于基因本体的层次机构和已知基因注释开发了一个新颖的核矩阵,算法经过词条相似度量、蛋白功能相似度量、构造蛋白相似图和搜索最优扩散核四个步骤,这个核矩阵和几种典型的核矩阵相比具有更好的ROC评估性能。对于很多功能类,将注释有该功能的蛋白作为正例,其他蛋白作为负例组成训练集学习分类器容易引起类不平衡问题,且在负例集中的潜在正例影响分类器的质量。论文探索了类不平衡问题的解决方法,提出了一个创建人工正例扩充正例集,迭代训练SVM抽取适当大小的代表负例集的方法,较好的解决了上述的两个问题。和已有几种典型的训练集确定方式相比,已知蛋白数据上的交叉验证显示了很好的F值,对未知蛋白功能预测评估的ROC曲线也说明了该方法好的泛化性能。根据蛋白功能注释数据特点,论文将蛋白功能预测归结为有少量标记实例和大量未标记实例的半监督学习问题。本文探索了半监督学习的理论和方法,提出了基于组合带权图聚类扩展正例,通过极可能负例聚类获取少量负例,然后改编著名的tri-training半监督算法,蛋白质序列、基因表达谱和蛋白质相互作用三个数据视图上学习、提炼三个分类器,采用投票获取预测结果的方法。使用准确率p,召回率r以及它们的组合F进行评估,实验说明了该方法相对于一些经典方法的优越性。针对每个蛋白可以注释有多个功能类的特点,论文将功能预测问题归结为多标签分类问题。本文阐明了多标签分类学习的特点和常见的解决途径,对于本研究中100多个功能类的情形,经典的方法表现出极大的计算复杂性。本文提出了一种简单、灵活的基于动态阈值支持向量机集成的功能预测框架,它分为两个阶段:探索类层次结构选择合适的训练实例集学习支持向量机分类器,根据层次结构和注释数据使用动态阈值自顶向下预测功能。使用准确率p、召回率r以及两者的组合F评价扁平预测性能,引入新的层次准确率、层次召回率和它们的组合进一步评价预测的层次一致性,实验说明了训练实例选择策略和动态阈值策略的有效性。总体而言,论文对基于分类的蛋白功能预测技术进行了深入的研究,可以为机器学习同行和生物学专家提供参考。
其他文献
随着国有商业银行全部完成改制上市,外资银行在境内不断发展,国内众多的中小银行面临更为激烈的市场环境,急需变革以求生存和发展,银行流程再造是提升银行竞争力的一个重要途
在计算机软件著作权侵权案件中,由于其证据具有隐蔽性、技术性、易毁性、不稳定性等特点,较之普通民事诉讼证据更难以取得和容易灭失,证据保全尤为重要。一方面,权利人往往囿
随着全经济一体化快速推进,汽车行业竞争愈激烈,中已为汽车企业必争之地。今,我汽车行业面临着周期短、要高、本低、需多等诸多压力,这所有汽车制造企业带来了挑战遇。通过我
电镀填盲孔是HDI加工的一个重要工序。本文通过研究不同电流密度在不同电镀时间内的填孔行为,并尝试通过采用组合电流密度来提升电镀填盲孔效果,从而实现降低填孔镀铜量的目的
随着工业技术的高速发展和经济全球化趋势的日益加强,社会分工和专业化水平的不断深化和加速,市场竞争日趋激烈,任何一个企业都无法或者很难长期保持和具备高度相对优势的综
上世纪90年代以来,晋商题材电视剧的出现及热播引起了全社会的广泛关注。晋商题材电视剧融合了“晋商”这一经典商业文化范例和“电视剧”这一当代大众文化传播媒介两种要素,
计算机软件著作权侵权诉讼取证方式问题在上世纪90年代开始浮出水面,一直是知识产权领域的研究热点。由于计算机软件著作权侵权诉讼证据的多样性、技术性、脆弱性、隐蔽性等特
超早强水泥基灌浆料是一种由水泥、细集料、掺合料、高效减水剂、调凝剂、早强剂、消泡剂等组成的一种混合物。加水后产生很大的流动性,并且在很短的时间内能够产生很高的强
流域水污染防治控制单元划分是我国编制流域水污染防治规划的重要内容,其目的是使复杂的流域水环境问题分解到各控制单元内,将规划的目标和任务逐级细化,并突出重点,从而实现
随着网络技术的不断进步,网民数量的稳步增长,互联网从业主体规模不断扩大,处于成长阶段的中国互联网蕴藏着巨大机遇。在这样的产业形势下,越来越多的创业者投身于互联网的创