基于序列信息的蛋白质翻译后修饰位点预测方法研究

来源 :东北师范大学 | 被引量 : 1次 | 上传用户:fdhwangwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成和后基因组时代的到来,测序技术为生物学研究积累了大量的可挖掘数据。根据分子生物学中心法则,遗传信息保存在DNA中,但是真正行使生物学功能的是蛋白质。以mRNA为模板翻译出的前体蛋白是没有生物活性的,它需要经过一系列的加工过程才能成为具有生物功能的成熟蛋白。这种加工过程被称为翻译后修饰。翻译后修饰是蛋白质行使其正常生物学功能的基础。大量研究表明,发生在蛋白质赖氨酸残基上的Pupylation、泛素化和琥珀酰化修饰与许多疾病的发生存在密切相关性,阐明这些蛋白质翻译后修饰的过程和内在调控机理是揭示相关疾病发生机制并进行精准治疗的前提,而研究蛋白质翻译后修饰的关键起始步骤是找到可修饰蛋白及其作用位点。利用生物实验方法识别蛋白质翻译后修饰位点耗时长,经费投入大,而且翻译后修饰的酶促反应是一个极为耗时的过程,这严重制约了翻译后修饰位点识别研究的进展速度。随着生物信息学和计算生物学的发展,一些基于计算方法的蛋白质翻译后修饰位点识别技术被提出来,这些计算方法既能够高效而准确地识别蛋白质翻译后修饰位点,又能够进一步地对生物实验研究提供必要的线索。本文基于蛋白质序列信息对发生在赖氨酸残基上的翻译后修饰位点识别方法进行了深入研究,主要研究内容如下。(1)提出了一种新的蛋白质Pupylation位点识别方法EPuL。该识别方法的创新点体现在对初始可靠负样本集的构造,对于基于正例和无标记样本学习(Positive-Unlabled Learning,PU学习)过程,初始可靠负样本集的构造对算法整体性能至关重要。本文提出了一种基于分类器的初始可靠负样本集构造方法。初始可靠负样本集构造出来后,通过一个迭代过程对其进行扩充,最后构造出最终的可靠负样本集,并与正样本集构成最终的训练集,训练一个最终的支持向量机分类器来进行Pupylation位点识别。训练集上的交叉检验和独立样本集测试结果表明我们所提方法在预测性能上优于已有方法。另外,利用该算法从未注释位点的Pupylation蛋白质序列中识别出了一批潜在的Pupylation位点。特征分析结果表明本研究中使用的序列特征提取方法可以有效区分正样本和负样本。最后,根据此方法开发了一个用户友好的Web服务器提供免费的蛋白质Pupylation位点预测服务。(2)针对蛋白质泛素化位点识别问题开发了一种基于半监督学习与集成学习方法的预测算法。该算法首先选用伪氨基酸构成、蛋白质无序性打分、氨基酸理化性质、位置特异性得分矩阵、k-间隔氨基酸对构成、序列二进制编码和K近邻得分等7种方法对序列进行特征提取,对每一条序列构建8个独立的特征向量。位点识别算法首先利用改进的基于正例学习(Positive Sample only Learning,PSoL)算法根据8种特征向量从无标记样本集中逐步构建可靠负样本集,用于后续预测模型的训练。位点预测模型选用的是基于集成学习策略的随机森林算法。首先用每种单一特征分别训练一个随机森林模型,最后采用逻辑回归算法对8个随机森林模型的预测结果进行整合得到最终的预测结果。训练集上的10倍交叉检验和独立测试集的测试结果表明,本研究中提出的方法能够对物种特异的蛋白质泛素化位点和跨物种的综合性数据中的蛋白质泛素化位点进行有效识别,并且预测性能较现有泛素化位点预测算法得到了提高。最后,对算法进行特征分析,单一特征与组合特征比较结果证明组合特征预测较每种单一特征的预测效果都高,从而证明了特征组合的有效性。随机构建负样本集与本文构建的可靠负样本集上的比较结果证明了基于半监督学习的可靠负样本提取策略可以有效提高算法预测性能。(3)提出了一种用于蛋白质琥珀酰化位点预测的深度学习框架SucDeep。首先在k-间隔氨基酸对构成的基础上设计了一种新的序列特征提取方法。该方法用一个21×21维的矩阵来表示每一种氨基酸对在序列中出现的次数,每一个矩阵可以表示一种间隔的氨基酸对构成情况,然后把表示多种间隔的矩阵合并成在一起,构成一个与多通道图像类似的矩阵集合,作为待预测序列的一种特征。这种多通道特征矩阵是稀疏的整数矩阵,类似于计算机图像的表示方式,适用于深度学习模型。同时还采用位置特异性得分矩阵对序列进行特征提取,把每一条序列转换成一个20维的方阵。然后开发了一种基于间谍技术的半监督学习算法,用于从无标记样本中构建可靠负样本集。位点预测算法选用的是一种深度学习框架。该深度学习框架由两个多层卷积神经网络构成,每个子网络由3个卷积层,3个池化层和3个全连接层构成,并使用一个全连接层对两个子网络产生的特征进行拼接进行最终的预测。模型训练过程采用Bootstrapping策略,有效避免了训练集不平衡对算法性能的影响。最后构建了一个大规模的蛋白质琥珀酰化位点数据集对算法性能进行了测试,训练集上的5倍交叉检验结果和独立测试集的测试结果表明,我们所提出的算法较现有琥珀酰化预测算法在预测性能上有所提高。
其他文献
填海区深基坑的施工一直都是业界所面临的技术难点,在施工过程中会面临各种各样的工程问题,以笔者所经历的项目珠海歌剧院项目为例,并从工程概况、施工难点以及解决方法等方
巫术广泛流布于世界各地和人类发展的各个阶段,在人类文化史上占有特殊而又重要的地位。先秦时代是中国文化的奠基时代,鬼神思想虽然是一种迷信思想,但此时期的各种文化因素
作者在普遍语法(UG)框架下,运用其相关理论,尤其是原则和参数理论,结合对比分析和错误分析的研究方法,在词库层面上对学习者所产生的书面错误进行实证研究,以探求母语和目的
传感网是继PC、互联网、无线通信技术之后第四次信息技术革命,有重大的科学意义和应用价值。无线传感器技术作为传感网技术的典型代表,在军事国防、环境监测、生物医疗、抢险
中文中夹用外文的现象,无论在日常生活、大众传媒,还是文学作品中,都已经是不争的事实。如何对待这个问题,是遏制还是鼓励?是疏导还是放任?就当前的实际情况看,对于中文中夹
<正> 我们生产的铅粉纯度达99.5%以上,一般来说,这样高的纯度要测定其中的杂质含量,由100减去杂质总和来求得。测定杂质含量来求纯度,项目太多也很费事。过去我们采用硫酸铅重
目的:研究急诊床旁血液灌流法在急性重度药物中毒中的应用价值。方法:收治急性重度药物中毒患者30例,将之利用数字抽签法分成甲、乙两组(n=15)。对甲组施以急诊床旁血液灌流
分别进行了ISO-834标准升温下轴向约束高强混凝土柱四面受火轴心、偏心荷载作用试验,三面受火轴心荷载作用试验;高强纤维混凝土柱四面受火和三面受火轴心荷载作用试验。得到
<正>福建是我国塑料餐厨具的主要产地和出口地之一,产区主要集中在泉州和福州两地,共有企业100多家,据有关统计,2010年福建辖区共检验出口塑料餐厨具15537批,货值3.14亿美元,
近年来,水产品的机械化加工一直是生产企业追求的目标。通过引进各种加工装备替代人工作业,能够解决加工效率与劳动力成本等问题。随着消费者对食品卫生与安全日益关注,水产