论文部分内容阅读
随着人类基因组计划的完成,以及后基因组时代的到来,基因所表达的蛋白质成为生命科学领域研究的热点。在生命活动中,蛋白质与其配体物质相互作用才能完成特定的功能。因此,蛋白质与其配体相互作用功能位点的识别对深入理解蛋白质结构和其生物学功能,特别是一些疾病的治疗或新药研发具有重要的指导意义。本文对两种蛋白质功能位点:蛋白质-蛋白质相互作用位点和锌结合蛋白质作用位点预测方法进行研究。近几年蛋白质数据爆炸性地增长,依靠现有的实验方法和计算方法识别蛋白质功能位点并不能满足生物工作者的需要,设计和开发一系列合理、高效和高准确性的蛋白质功能位点预测方法是生物信息学领域一个重要的研究课题。为了进一步提高预测的准确率,本文针对蛋白质-蛋白质相互作用位点和锌结合蛋白质作用位点,利用机器学习算法整合多种预测方法,开发新的蛋白质功能位点预测工具;针对数据非平衡性问题,利用采样技术和集成学习等方法,研究非平衡采样技术、特征选择策略和数据分类算法,提出了一些新的蛋白质功能位点预测方法。论文的主要研究工作如下:1.在蛋白质-蛋白质相互作用位点预测中,研究者们已经提出了一些预测方法,并取得了一定的实际应用,但很少研究者基于数据非平衡性进行研究。在蛋白质-蛋白质相互作用过程中,实际结合的作用位点残基数量占整个蛋白质序列的比例很小,正负样本数据之间存在一定的非平衡性。传统机器学习方法易使结果偏向多数类负类,不利于少数类正类蛋白质相互作用结合位点的识别。针对蛋白质相互作用位点数据集的非平衡性问题,使用SMOTE算法增加少数类样本的数量;利用k近邻算法对少数类样本进行线性插值,生成新的样本,调整样本数据的稳定性。本文提出了基于SMOTE的径向基神经网络预测模型(Radial Basis Function Improved by SMOTE,RBFIS),选取合适的过采样率值,采取留一法进行交叉实验。实验表明,该方法相对于传统方法,通过提高少数类的比例,预测结果的性能指标平均情况有了较好地改善,少数类的预测性能也有很大地提高。同时,对蛋白质不同属性特征组合进行了测试,多特征组合有利于提高少数类预测的准确度。2.目前锌离子结合蛋白质作用位点预测工具主要采用单一的机器学习算法、或集成一些经典算法,很少研究者对已有的预测工具进行整合研究。考虑蛋白质序列信息的可获得性,采用线性回归方法对三种经典预测工具Zinc Explorer,zinc Finder,zinc Pred进行整合,提出了一种新的预测方法meta-zinc Prediction。该方法对三种预测工具的预测结果分数值进行整合,调整优化参数,直到达到最优。在非冗余的Zhao_dataset数据集上进行测试时,方法meta-zinc Prediction对四种作用位点残基预测的整体性能有了较大的提高,且对四种类型中的任一类型作用位点残基都进行了性能测试,预测性能都优于当前其他预测器。为了进一步证明提出方法的鲁棒性,在作者新收集的蛋白质数据集(Collected Dataset)上进行不同测试,无论是对所有四种类型锌离子结合位点残基还是其中单一类型的锌离子结合位点,预测器meta-zinc Prediction的预测性能都优于其他预测器。为了方便所提新方法的使用,作者开发了该预测方法的工具软件。3.贝叶斯是一种基于不确定理论进行推理、可有效处理不完全或者缺失数据的一种统计方法。本文利用贝叶斯方法对三种不同预测工具Zinc Explorer,zinc Finder,zinc Pred的预测结果进行整合,提出了一种基于贝叶斯方法的锌离子结合位点预测器Bayes_Zinc。该方法将正负样本信息融合到模型中,甚至变量中某个数据值缺失时,进行缺失值填充处理,预测结果也不会出现较大的偏差。最终通过计算样本属于每一类的概率,把样本对象归于具有最大概率的类别。通过实验测试,Bayes_Zinc的性能指标MCC、recall和precision的均值都优于其他方法,在整个[0,1]区间上取得了较好的预测性能。4.已有研究表明,锌离子与蛋白质作用过程中,相对于非结合作用位点残基,真正结合的作用位点残基数量非常少,锌结合蛋白质作用位点预测是一个典型的非平衡二分类问题。为了更好地提高非平衡数据分类的预测准确性,避免传统机器学习方法对非平衡数据集进行分类时的偏向性。首先,利用随机下采样技术对大类样本数据集进行平衡性抽样处理。针对每一个平衡数据集利用基分类器支持向量机进行训练,计算样本权重,建立基于样本加权的概率神经网络模型。然后对不同分类器结果进行整合,提出基于支持向量机和样本加权概率神经网络的锌结合蛋白质作用位点预测模型SSWPNN。在训练集上进行测试,新提出方法的性能优于其组成预测器。并与其他四种方法进行比较,不论是对四种残基的整体预测性能,还是其中任一残基的预测性能,都优于其他方法。在独立测试集上对四种残基的预测能力,以及任一残基的预测能力进行了测试,从整体上看,预测效果均有一定的提高。另外,通过减少某个特征进行预测,计算性能指标得分值,对本方法所选取的特征属性重要性程度进行了分析。