论文部分内容阅读
随着生物分子数据量的急剧增长,如何利用这些数据,通过数据分析,揭示出对人类有价值的信息,从而产生了一门由生物学家、数学家和计算机科学家共同研究的新型交叉学科:生物信息学。它的研究重点主要是如何通过生物序列分析进而研究它们的结构和功能。在本文中,我们主要致力于通过不同的计算方法来研究蛋白质序列与结构和功能的关系,主要有以下成果:第二章中,DNA结合蛋白在生物细胞中属于功能蛋白,在各种重要的生物活动中起着至关重要的作用。因此,我们建立了一种基于DNA结合蛋白的全面特征分析的分类预测模型。此模型是根据蛋白质序列的序列长度信息和氨基酸的组成成分信息、进化信息、二级结构信息、物理化学性质和功能信息,把每条蛋白质序列转化为相应的特征向量。进一步,根据不同的特征选择方法去除了特征向量中可能与预测DNA结合蛋白不相关并且特征向量之间的冗余,然后把这些特征向量作为支持向量机的输入,我们的模型在5倍折叠交叉检验下预测准确率达到了85.3%,在相同的测试集DNAiset下,比DNA-Binder、 DNA-Prot和DNABIND方法的预测准确率高。进一步,在真实的测试集DNArset下,我们的模型比其它方法产生的模型有明显的提高。本文的研究证明了我们的模型可以有效的对DNA结合蛋白进行预测。第三章中,序列比对方法是生物信息学研究的重要方法之一,但是该方法计算复杂度较高,对于长序列、多序列比对以及巨大的数据库搜索,实现该算法是很困难的,所以很多研究者致力于非比对方法的研究。我们应用了伪氨基酸组成方法的思想,将20个氨基酸的出现频率和基于三个理化性质指标建立的图形表示方法得到的3维特征向量组合在一起,从而蛋白质序列得到了23维特征向量。通过9个物种之间的相似性说明了我们的方法的有效性和合理性。并且通过与Clustal W的相关性分析,我们的方法比其它图形表示方法能挖掘出更多的生物信息。同时,我们用两种新的方法对产生的蛋白质序列的图形表示进行了数值刻画,用伪氨基酸组成方法得到的特征向量作为KNN和支持向量机的输入,从而对DNA结合蛋白进行了预测,此方法计算复杂度低并且得到了86%的预测准确率。本文的研究证明了我们的方法对蛋白质序列的相似性比较以及DNA结合蛋白预测的有效性。第四章中,我们通过计算方法分析了在流感病毒H7N9NA蛋白中,位于蛋白表面并且高保守的C-terminal28个氨基酸残基段。根据滑动窗口的变化量来判断氨基酸残基段的保守性,并且给出了在相同滑动窗口下溶剂可达性的值,得到残基段的保守性与溶剂可达性的平均值有比较好的相关性,从而找到C-terminal中28个氨基酸残基段即保守又位于溶剂表面。另外,通过RNA序列3’-terminal保守性以及蛋白质3D晶体结构图证实了C-terminal区域中28个氨基酸残基即保守又位于溶剂表面。因此,在设计流感病毒H7N9的抑制剂时,这个保守区域可以作为可能的绑定位点。