论文部分内容阅读
G蛋白偶联受体(G protein-coupled receptors,GPCRs)又称为七a螺旋跨膜蛋白受体,是目前最大的蛋白质受体超家族之一。它由N末端、7个跨膜a螺旋、C末端、3个胞外环及3个胞内环组成。其中,N端在胞外,C端在胞内,7个跨膜a螺旋反复穿越细胞膜的脂双层。人类基因组测序表明,人类基因组中大约有1200个基因是属于GPCRs,它们识别并结合细胞外信号分子包括光、生物胺、肽类、糖蛋白、脂类、核苷酸、离子、蛋白酶等,激活细胞内的G蛋白。活化后的G蛋白a亚基和Bγ亚基发生解离,调节相关酶活性,在细胞内产生第二信使,从而将细胞外信号跨膜传递到细胞内的效应分子,引起细胞内的一系列变化。GPCRs的功能失调会导致许多疾病的产生,如阿尔茨海默氏症、帕金森症、忧郁症、高血压、糖尿病、精神分裂症等,因而GPCRs在制药领域中占有极其重要的地位,目前世界小分子药物市场中有三分之一以上的药物作用靶点是GPCRs。研究GPCRs的功能位点和功能性SNPs对于药物设计具有重要意义,本文主要利用生物信息学的方法来预测GPCRs的功能位点和功能性SNPs。
所有的GPCRs具有相同的结构和相似的活化机制,但是却能够调节不同的生理过程,这是因为不同的残基在GPCRs中起着不同的作用。本文首先以GPCRs的一个亚家族生物胺受体作为研究对象,建立了功能位点的预测模型。该模型根据已有的亚家族定义,利用父家族和亚家族保守性的差异,从整体和局部两方面对生物胺受体的功能位点进行预测,并结合已有的突变实验结果,对这部分功能位点的作用进行分析。进而将功能位点的预测模型推广到了整个GPCRs上,对GPCRs其它家族的功能位点进行了预测。获得如下结果:(1)生物胺受体的全局功能位点在整个生物胺家族中高度保守,主要位于受体的跨膜区。生物胺受体的全局功能位点维持着生物胺受体的共同结构,与生物胺受体家族的共性有关。(2)在生物胺受体家族中可变,但在生物胺受体的某一个亚家族中保守的氨基酸与该亚家族所特有的功能紧密相关。不同亚家族特有的功能位点存在着数量和分布上的差异。亚家族特有的功能位点主要位于受体的跨膜区,第二个胞外环和胞内环上,对于受体与配基的结合或与G蛋白的偶联具有重要作用。
本文采用机器学习的方法对GPCRs的功能性SNPs进行预测。1R算法、x2统计量、信息增益三种方法分别用来衡量单个属性的预测能力。本文使用遗传算法进行前向搜索,分别根据基于相关性原则、基于一致性原则和封装法选择预测属性集。比较了决策树、支持向量机、K近邻三种分类方法在不同的属性集上的分类性能,选择出用于预测的最优预测属性集和分类算法。获得如下结论:(1)从单个属性来讲,突变位点的保守性最能区分功能性突变和非功能性突变,而预测的结构信息的分类效果较差。结合序列和结构属性可以提高分类性能,但是简单的将所有属性用于预测并不能取得最好的预测效果。(2)基于封装法的属性集是用于预测GPCRs功能性SNPs的最优属性集。该属性集包括了6个方面的属性:突变位点的保守性、突变前后疏水性的变化、BLOSUM62替代矩阵值、突变位置、相对溶剂可及性和掩埋电荷。预测的最优属性集既包含了序列的属性,也包含了结构的属性,因此,对于结构未知的蛋白质来说,预测的结构信息也有助于提高分类的准确性。(3)使用决策树方法和最优属性集进行分类的准确性为91.17%,而且具有很好的泛化性能。决策树方法不仅可以得到较好的分类效果,而且可以得到一些可理解的规则以及每条规则的准确性。SNPs规则库共包含了30条规则,其中16条用于判断功能性SNPs,14条用于判断非功能性SNPs。(4)dbSNP中共包括了519个人类GPCRs的非同义SNPs,利用决策树方法和最优属性集,预测出了其中166个为功能性SNPs。进一步地分析和研究这些功能性SNPs对于疾病易感性研究和个体化医疗具有重要意义。