论文部分内容阅读
蛋白质相互作用中的Hub蛋白质是协调蛋白质相互作用并发挥生物学功能的关键因素,它有助于解释蛋白质发挥其生物学功能的分子机制,进一步理解生命活动的微观过程,并对基于蛋白质结构的药物设计提供理论指导。蛋白质相互作用结合面上某些热点残基对结合自由能的贡献较大。热点残基在蛋白质结合面上形成紧密堆积的热区。热区是受体与高亲和力配体结合的重要区域,也是促进蛋白质相互作用稳定性的特定功能区域。因此,研究Hub蛋白质相互作用结合面上的热点和热区,以及不同类型的Hub蛋白质相互作用结合面,对于理解蛋白质的功能是非常重要的。虽然,越来越多的蛋白质结构和属性被发现,但是大量的信息是冗余的,导致使用传统方法研究Hub蛋白质相互作用结合面极其困难。高质量的预测模型和高效的计算方法显得尤为重要。本文利用集成学习和聚类方法对Hub蛋白质相互作用结合面开展了一些研究工作,主要内容包括:(1)基于相关系数的特征选择方法首先,利用皮尔森相关系数对特征子集进行评价,获得高度相关的特征属性,并将相关系数矩阵进行可视化处理,移除一些高度关联的特征属性。为了将具有相关模式的变量聚集在一起,采用主成分分析法(PCA)对相关系数图中矩阵的行和列进行重新排序。接着采用基于支持向量机的递归特征剔除方法(SVM-RFE)进行反向特征筛选,获得最优特征子集。通过该方法,无关的特征可以去除,且不会造成大量的信息丢失。(2)基于集成学习的Hub蛋白质结合面热点预测方法为了有效地预测Hub蛋白质结合面上的热点,并对不同类型的Hub蛋白质结合面进行分类,本文首先采用三个集成学习方法Boosting、Gradient Boosting和随机森林在不同的数据集上建立训练模型,并采用十折交叉验证进行评估。然后,将三种集成学习方法用到Hub蛋白质结合面的热点预测中,并采用相互作用倾向性优化策略计算Hub蛋白质的倾向性系数,对倾向性系数较高的DD结合面(DateHub-DateHub)和PP结合面(PartyHub-PartyHub)进行分类。为了评估分类模型的性能,利用平均精确率下降曲线和平均基尼系数下降曲线对特征变量的重要性进行分析,并绘制边缘分布图来度量分类模型的确定性。实验结果表明,基于相互作用倾向性的随机森林方法的误判率较低,模型的分类结果有较高的可信度。(3)基于局部社区结构探测的Hub蛋白质结合面热区预测方法采用基于局部社区结构探测(LCSD)的聚类方法预测Hub蛋白质结合面上的热区结构。首先,利用基于聚类的边界点识别方法划分社区,并通过对势和相对可及表面积优化策略(PPRA)对热区结果进行优化。然后,通过丢失残基优化策略,对丢失的蛋白质残基重新处理,从而得到最终的热区。实验结果表明LCSD方法预测热区是可行和有效的,精度得到了较好的提升。(4)基于残基配位数优化和K-means的Hub蛋白质结合面热区预测方法利用K-means聚类方法预测Hub蛋白质结合面上的热区结构。首先,为了提高K-means聚类算法的效率,通过计算距离平方和以及平均轮廓值来确定能够得到最佳聚类结果的k值。然后,用残基配位数优化(RCNO)策略计算平均配位数,同时,根据对势和相对可及表面积(PPRA),对识别的热区进行优化。实验结果表明,残基配位数优化策略对预测热区的个数没有影响,但在预测的热区内部,热点残基数量增加,非热点残基数目减少,预测出来的热区与标准热区更为接近。综上所述,本文基于新的特征选择方法,采用三种集成学习和两种聚类方法对Hub蛋白质结合面上的热点残基和热区结构进行预测,并通过多种优化策略进行优化。实验结果表明,使用本文方法所创建的模型具有较高的确定性,对预测Hub蛋白质结合面是有效的。