论文部分内容阅读
随着人类基因组计划的完成和后基因组时代的到来,测序技术为生物学研究积累了大量的可挖掘数据。根据分子生物学中心法则,遗传信息保存在DNA中,但是真正行使生物学功能的是蛋白质。以mRNA为模板翻译出的前体蛋白是没有生物活性的,它需要经过一系列的加工过程才能成为具有生物功能的成熟蛋白。这种加工过程被称为翻译后修饰。翻译后修饰是蛋白质行使其正常生物学功能的基础。大量研究表明,发生在蛋白质赖氨酸残基上的Pupylation、泛素化和琥珀酰化修饰与许多疾病的发生存在密切相关性,阐明这些蛋白质翻译后修饰的过程和内在调控机理是揭示相关疾病发生机制并进行精准治疗的前提,而研究蛋白质翻译后修饰的关键起始步骤是找到可修饰蛋白及其作用位点。利用生物实验方法识别蛋白质翻译后修饰位点耗时长,经费投入大,而且翻译后修饰的酶促反应是一个极为耗时的过程,这严重制约了翻译后修饰位点识别研究的进展速度。随着生物信息学和计算生物学的发展,一些基于计算方法的蛋白质翻译后修饰位点识别技术被提出来,这些计算方法既能够高效而准确地识别蛋白质翻译后修饰位点,又能够进一步地对生物实验研究提供必要的线索。本文基于蛋白质序列信息对发生在赖氨酸残基上的翻译后修饰位点识别方法进行了深入研究,主要研究内容如下。(1)提出了一种新的蛋白质Pupylation位点识别方法EPuL。该识别方法的创新点体现在对初始可靠负样本集的构造,对于基于正例和无标记样本学习(Positive-Unlabled Learning,PU学习)过程,初始可靠负样本集的构造对算法整体性能至关重要。本文提出了一种基于分类器的初始可靠负样本集构造方法。初始可靠负样本集构造出来后,通过一个迭代过程对其进行扩充,最后构造出最终的可靠负样本集,并与正样本集构成最终的训练集,训练一个最终的支持向量机分类器来进行Pupylation位点识别。训练集上的交叉检验和独立样本集测试结果表明我们所提方法在预测性能上优于已有方法。另外,利用该算法从未注释位点的Pupylation蛋白质序列中识别出了一批潜在的Pupylation位点。特征分析结果表明本研究中使用的序列特征提取方法可以有效区分正样本和负样本。最后,根据此方法开发了一个用户友好的Web服务器提供免费的蛋白质Pupylation位点预测服务。(2)针对蛋白质泛素化位点识别问题开发了一种基于半监督学习与集成学习方法的预测算法。该算法首先选用伪氨基酸构成、蛋白质无序性打分、氨基酸理化性质、位置特异性得分矩阵、k-间隔氨基酸对构成、序列二进制编码和K近邻得分等7种方法对序列进行特征提取,对每一条序列构建8个独立的特征向量。位点识别算法首先利用改进的基于正例学习(Positive Sample only Learning,PSoL)算法根据8种特征向量从无标记样本集中逐步构建可靠负样本集,用于后续预测模型的训练。位点预测模型选用的是基于集成学习策略的随机森林算法。首先用每种单一特征分别训练一个随机森林模型,最后采用逻辑回归算法对8个随机森林模型的预测结果进行整合得到最终的预测结果。训练集上的10倍交叉检验和独立测试集的测试结果表明,本研究中提出的方法能够对物种特异的蛋白质泛素化位点和跨物种的综合性数据中的蛋白质泛素化位点进行有效识别,并且预测性能较现有泛素化位点预测算法得到了提高。最后,对算法进行特征分析,单一特征与组合特征比较结果证明组合特征预测较每种单一特征的预测效果都高,从而证明了特征组合的有效性。随机构建负样本集与本文构建的可靠负样本集上的比较结果证明了基于半监督学习的可靠负样本提取策略可以有效提高算法预测性能。(3)提出了一种用于蛋白质琥珀酰化位点预测的深度学习框架SucDeep。首先在k-间隔氨基酸对构成的基础上设计了一种新的序列特征提取方法。该方法用一个21×21维的矩阵来表示每一种氨基酸对在序列中出现的次数,每一个矩阵可以表示一种间隔的氨基酸对构成情况,然后把表示多种间隔的矩阵合并成在一起,构成一个与多通道图像类似的矩阵集合,作为待预测序列的一种特征。这种多通道特征矩阵是稀疏的整数矩阵,类似于计算机图像的表示方式,适用于深度学习模型。同时还采用位置特异性得分矩阵对序列进行特征提取,把每一条序列转换成一个20维的方阵。然后开发了一种基于间谍技术的半监督学习算法,用于从无标记样本中构建可靠负样本集。位点预测算法选用的是一种深度学习框架。该深度学习框架由两个多层卷积神经网络构成,每个子网络由3个卷积层,3个池化层和3个全连接层构成,并使用一个全连接层对两个子网络产生的特征进行拼接进行最终的预测。模型训练过程采用Bootstrapping策略,有效避免了训练集不平衡对算法性能的影响。最后构建了一个大规模的蛋白质琥珀酰化位点数据集对算法性能进行了测试,训练集上的5倍交叉检验结果和独立测试集的测试结果表明,我们所提出的算法较现有琥珀酰化预测算法在预测性能上有所提高。