Hub蛋白质相互作用结合面预测方法研究

来源 :武汉科技大学 | 被引量 : 1次 | 上传用户:zbc518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质相互作用中的Hub蛋白质是协调蛋白质相互作用并发挥生物学功能的关键因素,它有助于解释蛋白质发挥其生物学功能的分子机制,进一步理解生命活动的微观过程,并对基于蛋白质结构的药物设计提供理论指导。蛋白质相互作用结合面上某些热点残基对结合自由能的贡献较大。热点残基在蛋白质结合面上形成紧密堆积的热区。热区是受体与高亲和力配体结合的重要区域,也是促进蛋白质相互作用稳定性的特定功能区域。因此,研究Hub蛋白质相互作用结合面上的热点和热区,以及不同类型的Hub蛋白质相互作用结合面,对于理解蛋白质的功能是非常重要的。虽然,越来越多的蛋白质结构和属性被发现,但是大量的信息是冗余的,导致使用传统方法研究Hub蛋白质相互作用结合面极其困难。高质量的预测模型和高效的计算方法显得尤为重要。本文利用集成学习和聚类方法对Hub蛋白质相互作用结合面开展了一些研究工作,主要内容包括:(1)基于相关系数的特征选择方法首先,利用皮尔森相关系数对特征子集进行评价,获得高度相关的特征属性,并将相关系数矩阵进行可视化处理,移除一些高度关联的特征属性。为了将具有相关模式的变量聚集在一起,采用主成分分析法(PCA)对相关系数图中矩阵的行和列进行重新排序。接着采用基于支持向量机的递归特征剔除方法(SVM-RFE)进行反向特征筛选,获得最优特征子集。通过该方法,无关的特征可以去除,且不会造成大量的信息丢失。(2)基于集成学习的Hub蛋白质结合面热点预测方法为了有效地预测Hub蛋白质结合面上的热点,并对不同类型的Hub蛋白质结合面进行分类,本文首先采用三个集成学习方法Boosting、Gradient Boosting和随机森林在不同的数据集上建立训练模型,并采用十折交叉验证进行评估。然后,将三种集成学习方法用到Hub蛋白质结合面的热点预测中,并采用相互作用倾向性优化策略计算Hub蛋白质的倾向性系数,对倾向性系数较高的DD结合面(DateHub-DateHub)和PP结合面(PartyHub-PartyHub)进行分类。为了评估分类模型的性能,利用平均精确率下降曲线和平均基尼系数下降曲线对特征变量的重要性进行分析,并绘制边缘分布图来度量分类模型的确定性。实验结果表明,基于相互作用倾向性的随机森林方法的误判率较低,模型的分类结果有较高的可信度。(3)基于局部社区结构探测的Hub蛋白质结合面热区预测方法采用基于局部社区结构探测(LCSD)的聚类方法预测Hub蛋白质结合面上的热区结构。首先,利用基于聚类的边界点识别方法划分社区,并通过对势和相对可及表面积优化策略(PPRA)对热区结果进行优化。然后,通过丢失残基优化策略,对丢失的蛋白质残基重新处理,从而得到最终的热区。实验结果表明LCSD方法预测热区是可行和有效的,精度得到了较好的提升。(4)基于残基配位数优化和K-means的Hub蛋白质结合面热区预测方法利用K-means聚类方法预测Hub蛋白质结合面上的热区结构。首先,为了提高K-means聚类算法的效率,通过计算距离平方和以及平均轮廓值来确定能够得到最佳聚类结果的k值。然后,用残基配位数优化(RCNO)策略计算平均配位数,同时,根据对势和相对可及表面积(PPRA),对识别的热区进行优化。实验结果表明,残基配位数优化策略对预测热区的个数没有影响,但在预测的热区内部,热点残基数量增加,非热点残基数目减少,预测出来的热区与标准热区更为接近。综上所述,本文基于新的特征选择方法,采用三种集成学习和两种聚类方法对Hub蛋白质结合面上的热点残基和热区结构进行预测,并通过多种优化策略进行优化。实验结果表明,使用本文方法所创建的模型具有较高的确定性,对预测Hub蛋白质结合面是有效的。
其他文献
高超声速飞行器技术属于未来航空航天领域的前沿,而超高温环境下的温度、应变和压力等参数的原位、实时测量对于高超声速飞行器的安全运行至关重要。通过耐高温光纤传感技术,
稳定是电力系统运行的基本前提,传统电力系统动态行为、稳定机理以及相关理论的建立主要源于对同步机特性的深切认知。但随着大规模新能源的开发与利用,电源特性呈现出多元化
目的:探讨耳穴综合疗法治疗偏头痛的临床疗效,同时采用蛋白质组学和代谢组学技术,研究耳穴综合疗法治疗偏头痛的分子生物学机制,进一步完善耳穴综合疗法对偏头痛的干预机制。
食管鳞状细胞癌(食管鳞癌)在中国是一种常见的消化道恶性肿瘤,正常的食管上皮细胞在外源刺激下经过多阶段的癌前病变过程最终进展为具有侵袭转移能力的恶性肿瘤细胞。已有研
本试验以常规谷子晋谷21和杂交谷子张杂谷10为试验材料,通过盆栽、大田以及室内试验,研究不同时期(苗期、孕穗期、开花期、灌浆期)叶面喷施不同浓度锌对谷子生理生化指标、相关
城市体育公园是一个以体育元素为主题的专类公园。它不只是公园和体育的简单加和,在改善城市生态环境的同时为市民提供休闲活动空间,兼具生态、经济、社会等多重价值。随着全民健身热潮的兴起,市民对活动健身空间的需求不断增加,城市体育公园建设势在必行。将城市公共空间建设成为体育活动的公共载体是城市体育公园发展的必然趋势。本研究以当前国内体育公园中存在的问题为切入点,在系统研究城市体育公园规划设计基础理论和国内
当今商业活动中一切以数据为基础。在信息技术加速渗入商业活动的背景下,构建、优化和控制组织的数据资产这一复杂任务的挑战性不断增加。数据治理是数据驱动决策、数据集成
背景:在肿瘤免疫疗法中,抗原提呈细胞(antigen presenting cells,APC)是体内外扩增抗原特异性T细胞的有效工具,但仍面临耗时长、花费高、扩增困难以及生物安全等问题。随着非
众所周知,纳米材料的形貌和结构对其物理化学性能有着非常重要的影响。作为纳米家族中重要的一员,硅(Si)基纳米材料近年来得到了科研人员极大的关注。尤其在能量存储如锂离子
在经济全球化的今天,集中采购模式被越来越多的跨国公司或组织所采用,并已经成为一种趋势。没有人会质疑集中采购模式给跨国公司或组织所带来的好处。跨国公司或组织通过两种