论文部分内容阅读
蛋白质是构成细胞的一种大分子物质,含量仅次于水。它们在生物体中具有一些很重要的功能,包括组成器官、催化代谢生化反应和维护细胞环境等。作为生命活动最重要和最多样的大分子,蛋白质功能的研究对新药的发现、作物改良、甚至人工合成生物化学物质如生物燃料等具有重要的意义。用实验手段预测蛋白功能代价高、耗时长,不能满足当代生命科学的发展需要。现代高吞吐量的分子生物学实验产生的海量数据财富使计算手段预测蛋白功能变得非常重要,现代生命科学的研究已经变为一门数据驱动的学科。论文研究使用机器学习的分类技术预测蛋白质功能。将每个蛋白建模为属性空间的点,或者显式描述为一个属性向量,或者使用模式分析的核方法计算两个蛋白的相似核。对于每个蛋白,功能注释数据库注释它具有哪些功能,一般没有注释它没有哪些功能。蛋白功能预测基于已知蛋白的注释学习分类模型,预测未知功能蛋白,为生物学家提供实验参考。本文使用基于统计学习理论,有很好泛化性能的支持向量机作为基本分类器进行功能预测。蛋白质属性空间的复杂性使得预测任务必须学习一个非线性分类器,解决问题的核方法将属性空间使用核函数映射到一个高维的特征空间,使得在特征空间可用线性分类器进行分类预测。论文基于基因本体的层次机构和已知基因注释开发了一个新颖的核矩阵,算法经过词条相似度量、蛋白功能相似度量、构造蛋白相似图和搜索最优扩散核四个步骤,这个核矩阵和几种典型的核矩阵相比具有更好的ROC评估性能。对于很多功能类,将注释有该功能的蛋白作为正例,其他蛋白作为负例组成训练集学习分类器容易引起类不平衡问题,且在负例集中的潜在正例影响分类器的质量。论文探索了类不平衡问题的解决方法,提出了一个创建人工正例扩充正例集,迭代训练SVM抽取适当大小的代表负例集的方法,较好的解决了上述的两个问题。和已有几种典型的训练集确定方式相比,已知蛋白数据上的交叉验证显示了很好的F值,对未知蛋白功能预测评估的ROC曲线也说明了该方法好的泛化性能。根据蛋白功能注释数据特点,论文将蛋白功能预测归结为有少量标记实例和大量未标记实例的半监督学习问题。本文探索了半监督学习的理论和方法,提出了基于组合带权图聚类扩展正例,通过极可能负例聚类获取少量负例,然后改编著名的tri-training半监督算法,蛋白质序列、基因表达谱和蛋白质相互作用三个数据视图上学习、提炼三个分类器,采用投票获取预测结果的方法。使用准确率p,召回率r以及它们的组合F进行评估,实验说明了该方法相对于一些经典方法的优越性。针对每个蛋白可以注释有多个功能类的特点,论文将功能预测问题归结为多标签分类问题。本文阐明了多标签分类学习的特点和常见的解决途径,对于本研究中100多个功能类的情形,经典的方法表现出极大的计算复杂性。本文提出了一种简单、灵活的基于动态阈值支持向量机集成的功能预测框架,它分为两个阶段:探索类层次结构选择合适的训练实例集学习支持向量机分类器,根据层次结构和注释数据使用动态阈值自顶向下预测功能。使用准确率p、召回率r以及两者的组合F评价扁平预测性能,引入新的层次准确率、层次召回率和它们的组合进一步评价预测的层次一致性,实验说明了训练实例选择策略和动态阈值策略的有效性。总体而言,论文对基于分类的蛋白功能预测技术进行了深入的研究,可以为机器学习同行和生物学专家提供参考。