几种蛋白质同源建模缺失值填充方法的研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:ZhangQin520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质大分子的三维结构决定了蛋白质的功能与性质,蛋白质结构预测在医学、药物学、生物学等研究中均具有重要的意义。同源建模法是目前唯一在实际中应用的蛋白质分子结构的预测方法。研究表明,蛋白质中氨基酸序列的一级结构决定着三维结构,序列相似的蛋白质可能起源于共同的祖先,具有相似的结构和功能。基于此,同源建模法根据已知结构的氨基酸序列,推测序列相似的目标结构。在多模板同源建模中,首先对同源蛋白质结构进行多序列比对,然后用主成分分析(principal component analysis,PCA)抽取结构演化的特征信息,构建保守区域的低维取样空间,最后在此空间中优化目标蛋白质保守区域的三维结构。在结构比对过程中,由于变异、替代等原因,会引发插入或删除(insertion/deletion)操作,导致空位的出现。标准的PCA技术只能处理无空位的情况。然而,在某些存在少量空位的区域,蛋白质结构非常相似,同样蕴含着演化信息。如果能将这些空位看作缺失值,并进行合理的填充,就能充分利用蛋白质结构中的演化信息,有效扩大同源建模法能研究的蛋白质链的长度。本文使用最近邻算法(k-nearest neighbor,KNN)、自组织神经网络算法(self-organization map,SOM)和误差反传网络算法(back propagation network,BP)对蛋白质同源建模中的缺失值进行了填充。首先我们使用软件MAMMOTH-mult对同一超家族中的蛋白质结构进行多序列比对,按照结构的相似性,获得两种蕴含结构演化信息的保守区域:(1)strict core,在对应的氨基酸位置上没有出现空位,并且任意两条蛋白质之间的原子距离小于4A;(2)loose core,至少有2/3的蛋白质在此位置上没有出现空缺,并且任意两条蛋白质之间的原子距离小于3A。然后我们分别使用了KNN、SOM和BP方法对loose core中的缺失值进行了填充。最后,应用PCA算法和期望最大化(expectation maximum,EM)方法处理填充后的结构数据,构建低维的PCA取样空间。在此基础上,本文还采用各向异性弹性振动网络模型对获得的PCA空间作了进一步的优化。我们对同源蛋白质结构进行简正模分析,将少数低频简正模合并到PCA空间(直至50维),得到的取样空间既能提供较高的模型精度,又能保持较低的维数。我们将此方法应用于33个蛋白质超家族,并与标准PCA方法得到的结果进行了比较。传统的同源建模法能处理的蛋白质结构约占总链长的62.9%,对缺失值填充后所能处理的链长达到82.7%。同时,在空间中能找到的最好模型与自然结构之间的欧式距离(root mean square deviation,RMSD)也足够小。传统PCA方法得到的平均RMSD为1.65A,填充后得到的RMSD值分别为1.08A(KNN)、1.08A (SOM)、1.12A (BP)。进行简正模分析后,所能预测的结构的精度进一步提升,分别提升到0.88A (KNN)、0.89A (SOM)、0.93A (BP)。与测定蛋白质结构的X-ray实验的精度相比,三种方法获得的取样空间的几何精度都足够高,可应用于后续蛋白质结构的相关理论研究。同时,本文处理缺失值的方法也能应用于其他领域,具有广泛的意义。
其他文献
目的 探讨颈动脉粥样硬化(CAS)与复发性脑梗死之间的关系.方法 收集82例患者,经头颅CT或MRI诊断为复发性脑梗死.行多普勒超声检查颈总动(CCA)、颈内动脉(ICA)、椎动脉(VA),同时伴有颈
过去几十年中,学者们针对工程中出现的疲劳断裂问题展开了大量的基础研究,主要采用试验和数值模拟方法来揭示材料或结构的疲劳裂纹扩展行为。部分学者基于不同假设也提出了不
渤海地区P油田经过几十年的开采,目前已处于高含水阶段,开发过程中的各种问题逐渐凸显,如,油田纵向和平面注采不平衡,不同级次储层单元内部存在差异,因此,对储层内部构型的研
根据教育部发布信息,2017年我国高校毕业生人数达799万人,是2000年全国毕业生人数的9倍。2018年我国大学毕业人数将上升到820万,达到峰值。由此可见,我国大学生就业问题依然
在简要分析GIS二次开发必要性和可行性的基础上,结合笔者实际开发源代码,详细阐述了基于MAPGIS极值点标注功能实现的思路和过程,并就该实现方法有待改进的地方进行了说明。