基于机器学习的蛋白质结合位点特征化和预测方法研究

来源 :武汉大学 | 被引量 : 11次 | 上传用户:kykyky666888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组和许多其它物种基因组序列测序计划的成功完成,不断增长的基因组序列数据提供了数百万条蛋白质的编码信息。作为遗传信息的体现者,蛋白质是最主要的生命活动过程的载体和功能执行者。在生物体细胞中,蛋白质是通过与其它生物分子相互作用来完成特定的功能,但直接参与了与其它生物分子相互作用的残基只占有蛋白质上的一部分,这些结合位点对实现蛋白质的功能显得十分重要。因此,分析和识别蛋白质-其它分子结合位点成为研究蛋白质功能实现机制的基础。近十年来,研究者开始关注利用计算方法预测蛋白质上的功能残基,特别是基于机器学习的预测方法,从蛋白质的序列或结构信息出发预测功能残基。本文使用氨基酸属性来探讨蛋白质结合不同类型分子的结合位点的理化特征的共性和特性,并在此基础上提出了预测蛋白质与其它类型分子的结合位点(如血红素结合位点)的分类方法,然后主要从蛋白质的三维结构和拓扑结构信息出发设计出有效的特征和特征表示方法来描述和预测DNA结合残基。全文主要的研究内容概括如下:1.利用氨基酸理化属性对蛋白质与不同类型分子(蛋白质,DNA/RNA和血红素分子)结合位点的特异性特征进行分析,并提出了从序列信息预测血红素结合位点的分类方法。本工作首先从最简单直观却有着高解释性的理化特征出发,分析了蛋白质结合不同类型分子的结合位点的相关的理化特征,结果表明不同类型结合分子的结合位点具有不同的性质。然后,我们提出了一种简单直观的特征选择方法和整合序列谱编码方案,实现了基于整合序列谱预测血红蛋白的结合位点的新方法。在训练集上的交叉验证和测试集上的独立验证结果均表明了我们的方法与文献中已有报道的结果相比,在预测精度上得到了较大的提高。2.DNA结合残基预测模型中的特征设计与分析。本工作首先构建了基准数据集,该数据集整合了蛋白质绑定DNA前后的结构数据,然后引入了新的结构特征包括温度因子、包装密度和拓扑结构特征来描述DNA绑定蛋白和对应的非绑定蛋白上的结合残基,利用新特征对结合残基的分析结果能给分子生物学家提供有用的信息。3.提出了基于特征降维策略的DNA结合残基预测模型。在我们前面工作中对DNA结合残基的特征设计和分析的基础上,进一步提出了权值因子来定量描述周围氨基酸对中心氨基酸依赖距离的贡献,然后通过提取表面补缀上的加权平均特征进行特征降维,在此基础上实现了基于加权平均的降维特征集预测DNA结合残基的新方法,实验结果表明,本章提出的新方法相比现有文献中的机器学习方法更有更高的效率和预测精度,同时该方法中提出的加权平均的降维策略可以扩展应用到其它类型的结合残基预测研究中。
其他文献
目的:探讨对缺铁性贫血患者进行整体护理的临床效果。方法:将2015年1月至2016年12月期间江苏省海门市人民医院收治的48例缺铁性贫血患者作为研究对象。将这48例患者随机分为对
根据2015年葫芦岛市畜禽养殖数据及分布情况,绘制ArcGis图.在确定畜禽粪便年排放量的估算方法和畜禽粪便排泄系数的基础上,估算葫芦岛市畜禽粪便产生量及其农田负荷量,并对农
以磁珠为载体的电化学免疫传感技术是当前的一个研究热点。如何有效地将携带了大量检测信息的磁珠固定在工作电极的检测表面,并对其进行直接电化学测定是制约该技术发展的一
随着计算机科学与技术的发展,计算机符号计算作为计算机、数学与人工智能的交叉学科逐渐成熟和完善。符号计算研究的主要对象是可代数化、数学化的实际问题,对现实问题进行创
<正> 谚语,就是流传于民间的一种现成俗语。或者说,谚语就是俗语里一种义含深刻道理的“套话”。《礼记&#183;大学》中说:“谚,俗语也”。《尚书》中称“喭”(按:喭即谚)为“
湿度测量与控制与国民经济的发展和人们生产生活密切相关,目前已在工农业生产、日常生活、气象、环保等各个领域广泛应用。在各种测量湿度的方法中,电子式的湿度传感器因其可
"吃"是永远的热点话题。因此,餐饮业是永远的朝阳行业,再加上其创业门槛低、投资少、风险小、回报快及利润较高,故而在市场中十分火热。然而,随着消费升级,餐饮行业转型发展,