论文部分内容阅读
目的 SARS-CoV是冠状病毒的一个新的变体。目前,我们对这种新型的冠状病毒的一些结构、功能等特性还不完全清楚。本研究的目的在于应用生物信息学方法分析不同地区来源的SARS-CoV全基因组序列的变异特征及碱基易变性,通过进化树结合序列间共有变异分布,分析SARS-CoV的地区进化与疾病流行特点。 分析S蛋白、N蛋白、M蛋白、E蛋白等四个主要结构蛋白的分子生物学特征和突变状况,以及基因突变对不同地区来源的SARS-CoV病毒株各结构蛋白的结构与功能的影响,为以后的疫苗开发等提供依据。 材料与方法 对从GenBank核酸数据库检索获得的59条不同地区来源的SARS-CoV病毒株全基因组序列利用CLUSTALX 1.83软件进行列队比较,找出各序列的变异位点及其在基因组序列上的分布,分析SARS-CoV基因组的易变区和保守区以及对应的基因和编码蛋白质,并绘制出进化树,对该病毒的地区与时间进化进行分析。 分别对41条推测S蛋白、44条N蛋白、39条M蛋白和36个E蛋白的核酸和氨基酸序列利用CLUSTAL X 1.83软件进行列队比较;利用DNA-Tools 6.0版工具软件和ProtParam等生物信息学分析工具分别计算SARS-CoV四个主要结构蛋白的各项物理特征和一般生物学特征,包括分子重量、等电点、氨基酸成分构成特点、分子式、原子数量、半衰期、不稳定指数、脂肪指数等。利用TMHMM Server v.2.0、signalP2.0等服务器软件分析预测这些结构蛋白的跨膜区、卷曲螺旋、信号肤等功能区特征。利用ThePre-dieterotein server、Predieting如tigeni。几ptides、SMAR”.4等软件系统分析预测各个不同地区来源的SARS一CoV结构蛋白序列上的motifs、domains及抗原决定簇等结构功能域,分析比较基因突变对不同地区来源的结构蛋白的功能结构域及抗原决定簇的影响。结果 59个SARS一CoV全基因组序列中,共发现477个变异位点,其中包括28个位点的缺失、71个位点的插人和378个位点的碱基替代,变异率为0.474愉。在378个位点上发生380种碱基替代,A、T、C、G的变异次数依次为1巧、1 13、87和65次。59个序列在进化树分析上可划分成三个群。 在四个主要结构蛋白中,S蛋白的分子重量为139109.ID;等电点为5.65;疏水性41.8%,亲水性40.0%;在41个不同地区来源的病毒株推测S蛋白的氨基酸序列中,有10个病毒株在20个位点发生30次突变,突变率为0.583知。有31个毒株的S蛋白未发生突变。在蛋白质的氨基酸成分构成中,亮氨酸和苏氨酸占的比例最高,色氨酸占的比例最低。在该蛋白序列靠近C端存在一个长度为20个氨基酸的半胧氨酸富集区;所有毒株推测S蛋白预测均发现三个低复杂度区域,一个卷曲螺旋和一个跨膜螺旋。在蛋白序列的N端的第1一14位残基区间存在一个可能的信号肤。并且S蛋白存在一个球状domaln和一个蛋白质家族domain,并发现三个Hel议结构。在S蛋白氨基酸序列上预测获得73个Motha。绝大多数病毒株预测获得61个抗原决定簇。只有sinol一11、GD01和ShanhgaiLY三个病毒株预测获得的抗原决定簇数量有所变化。 N蛋白的分子重量为46025 .OD,等电点为10 .93。该蛋白的疏水性为32.7%,亲水性为43.4%。在N蛋白的氨基酸构成中,甘氨酸占的比例最高,达到10.7%;而半胧氨酸含量为零。在44个病毒株N蛋白的422个氨基酸序列中,有7个病毒株在7个位点上发生9个突变,突变率为0.485知。预测44个病毒分离株N蛋白序列均不含有跨膜螺旋序列,全部序列均位于细胞膜外。也没有卷曲螺旋与信号肤,但预测获得4个低复杂度区域和一个蛋白质家族domain。科个毒株的N蛋白氨基酸序列中,有40条序列预测有29个motif,有四个毒株预测获得28个Motif;所有病毒分离株的N蛋白序列皆获得相同的16个抗原决定簇。在其氨基酸序列中存在一个丝氨酸富集区,可能是磷酸化的主要区域。并且在序列上含有一个可能的核转移信号序列。 M蛋白的分子重量为25 060.5D,等电点10.43。该蛋白的疏水性为51.6%,亲水性31.7%。在M蛋白的氨基酸构成中,亮氨酸占的比例最高,达到14.0%;而半胧氨酸占的比例最低,仅为1.4%。在39个病毒株M蛋白的221个氨基酸序列中,有18个病毒株在6个位点上发生了23次突变,突变率为2.669知。在M蛋白氨基酸序列上预测获得3个跨膜螺旋序列,一个可能的信号肤序列以及一个蛋白质家族domain。全部39个病毒株M蛋白预测获得的Mot迁和抗原决定簇数目相同,分另叻为12个motif和7个抗原决定簇。 E蛋白的分子重量为8361 .OD,等电点为6.28。该蛋白的疏水性55、3%,亲水性34.2%。在E蛋白的氨基酸构成中,亮氨酸和缴氨酸占的比例最高;而谷氨酞胺、组氨酸和色氨酸在E蛋白中含量为零。在36个毒株E蛋白的76个氨基酸序列中,有3个病毒株在4个位点上发生了突变,突变率为1 .462%o。所有E蛋白序列均预测获得一个跨膜螺旋序列和一个可能的信号肤序列。36个病毒株E蛋白中,有35条序列预测获得两个N一糖基化位点,sinol一11较其他毒株多一个motif。在E蛋白序列上只存在一个抗原决定簇,其中有两个毒株抗原