蛋白质功能位点预测方法研究

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户:ironbra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,以及后基因组时代的到来,基因所表达的蛋白质成为生命科学领域研究的热点。在生命活动中,蛋白质与其配体物质相互作用才能完成特定的功能。因此,蛋白质与其配体相互作用功能位点的识别对深入理解蛋白质结构和其生物学功能,特别是一些疾病的治疗或新药研发具有重要的指导意义。本文对两种蛋白质功能位点:蛋白质-蛋白质相互作用位点和锌结合蛋白质作用位点预测方法进行研究。近几年蛋白质数据爆炸性地增长,依靠现有的实验方法和计算方法识别蛋白质功能位点并不能满足生物工作者的需要,设计和开发一系列合理、高效和高准确性的蛋白质功能位点预测方法是生物信息学领域一个重要的研究课题。为了进一步提高预测的准确率,本文针对蛋白质-蛋白质相互作用位点和锌结合蛋白质作用位点,利用机器学习算法整合多种预测方法,开发新的蛋白质功能位点预测工具;针对数据非平衡性问题,利用采样技术和集成学习等方法,研究非平衡采样技术、特征选择策略和数据分类算法,提出了一些新的蛋白质功能位点预测方法。论文的主要研究工作如下:1.在蛋白质-蛋白质相互作用位点预测中,研究者们已经提出了一些预测方法,并取得了一定的实际应用,但很少研究者基于数据非平衡性进行研究。在蛋白质-蛋白质相互作用过程中,实际结合的作用位点残基数量占整个蛋白质序列的比例很小,正负样本数据之间存在一定的非平衡性。传统机器学习方法易使结果偏向多数类负类,不利于少数类正类蛋白质相互作用结合位点的识别。针对蛋白质相互作用位点数据集的非平衡性问题,使用SMOTE算法增加少数类样本的数量;利用k近邻算法对少数类样本进行线性插值,生成新的样本,调整样本数据的稳定性。本文提出了基于SMOTE的径向基神经网络预测模型(Radial Basis Function Improved by SMOTE,RBFIS),选取合适的过采样率值,采取留一法进行交叉实验。实验表明,该方法相对于传统方法,通过提高少数类的比例,预测结果的性能指标平均情况有了较好地改善,少数类的预测性能也有很大地提高。同时,对蛋白质不同属性特征组合进行了测试,多特征组合有利于提高少数类预测的准确度。2.目前锌离子结合蛋白质作用位点预测工具主要采用单一的机器学习算法、或集成一些经典算法,很少研究者对已有的预测工具进行整合研究。考虑蛋白质序列信息的可获得性,采用线性回归方法对三种经典预测工具Zinc Explorer,zinc Finder,zinc Pred进行整合,提出了一种新的预测方法meta-zinc Prediction。该方法对三种预测工具的预测结果分数值进行整合,调整优化参数,直到达到最优。在非冗余的Zhao_dataset数据集上进行测试时,方法meta-zinc Prediction对四种作用位点残基预测的整体性能有了较大的提高,且对四种类型中的任一类型作用位点残基都进行了性能测试,预测性能都优于当前其他预测器。为了进一步证明提出方法的鲁棒性,在作者新收集的蛋白质数据集(Collected Dataset)上进行不同测试,无论是对所有四种类型锌离子结合位点残基还是其中单一类型的锌离子结合位点,预测器meta-zinc Prediction的预测性能都优于其他预测器。为了方便所提新方法的使用,作者开发了该预测方法的工具软件。3.贝叶斯是一种基于不确定理论进行推理、可有效处理不完全或者缺失数据的一种统计方法。本文利用贝叶斯方法对三种不同预测工具Zinc Explorer,zinc Finder,zinc Pred的预测结果进行整合,提出了一种基于贝叶斯方法的锌离子结合位点预测器Bayes_Zinc。该方法将正负样本信息融合到模型中,甚至变量中某个数据值缺失时,进行缺失值填充处理,预测结果也不会出现较大的偏差。最终通过计算样本属于每一类的概率,把样本对象归于具有最大概率的类别。通过实验测试,Bayes_Zinc的性能指标MCC、recall和precision的均值都优于其他方法,在整个[0,1]区间上取得了较好的预测性能。4.已有研究表明,锌离子与蛋白质作用过程中,相对于非结合作用位点残基,真正结合的作用位点残基数量非常少,锌结合蛋白质作用位点预测是一个典型的非平衡二分类问题。为了更好地提高非平衡数据分类的预测准确性,避免传统机器学习方法对非平衡数据集进行分类时的偏向性。首先,利用随机下采样技术对大类样本数据集进行平衡性抽样处理。针对每一个平衡数据集利用基分类器支持向量机进行训练,计算样本权重,建立基于样本加权的概率神经网络模型。然后对不同分类器结果进行整合,提出基于支持向量机和样本加权概率神经网络的锌结合蛋白质作用位点预测模型SSWPNN。在训练集上进行测试,新提出方法的性能优于其组成预测器。并与其他四种方法进行比较,不论是对四种残基的整体预测性能,还是其中任一残基的预测性能,都优于其他方法。在独立测试集上对四种残基的预测能力,以及任一残基的预测能力进行了测试,从整体上看,预测效果均有一定的提高。另外,通过减少某个特征进行预测,计算性能指标得分值,对本方法所选取的特征属性重要性程度进行了分析。
其他文献
目的:探讨冠状动脉疾病(coronary artery disease,CAD)患者血浆微小RNA-214(microRNA-214,miR-214)水平特点,分析其与CAD患者发病时间和冠状动脉狭窄程度的相关性,为其成为新
第一部分CT能谱成像在胃腺癌分化程度评估中的应用价值目的:探索并讨论CT能谱成像(GSI)在评估胃腺癌分化程度中的应用价值。材料与方法:搜集经手术病理证实且术前均行宝石CT
砖雕是我国民间一门独特的传统建筑雕刻艺术。建筑是凝固的音乐,而砖雕则是这一凝固音乐中最美妙、最动人、最充满意境与情感的旋律和乐章。砖雕是依附于建筑而生存的,而建筑
在"文化走出去"战略中,需要传播独具民族文化特色的信息。中西语言文化的差异对跨文化对外传播的效果起到重要影响作用。本文以中部地区核心地位的湖北省地方民歌歌词翻译为
技术转移平台是科技成果转移转化的公共服务平台。本文分析了中国—东盟技术转移平台建设的需求情况,提出了中国—东盟技术转移平台建设的策略及平台的发展模式,对中国更好地
[目的]分析我院2004年7月至2015年12月诊治的及国内外近10年报道的原发骨恶性淋巴瘤(PBL)资料,探讨其临床、病理特点及预后相关因素。[方法]收集我院诊治的45例PBL患者资料(
大规模科学计算需求的不断增长推动着超级计算机系统快速发展。随着系统规模的增大,其组成部件不断增加、软硬件结构日益复杂、工作模式快速变化,超级计算机系统平均无故障时
依据电力电子变压器PET(PowerElectronicTransformer)的功率特性,提出了一种利用PET改善电力系统动态特性的新方法。PET副方接入输电线路,原方接无穷大系统,这时PET等效为一
市场经济运行一般原理,主要包括三大理论,即供求理论、价格理论、市场理论。 一、供求理论 供求理论是市场经济的重要理论,它包括微观和宏观两个方面的供求内容。 微观供给是
本文报道为了进行一种微量血清中和试验,使禽传染性支气管炎病毒马萨诸塞41株,适应鸡胚肾细胞培养物的过程。 在利用Earle氏均衡盐液为基础成份的营养液并在二氧化碳培养箱的