论文部分内容阅读
细胞因子(Cytokine)是机体的免疫细胞和非免疫细胞合成并分泌的小分子量的多肽类因子,能调节多种细胞生理功能,在生长发育、机体免疫等过程中起着非常重要的调控作用。从第一个细胞因子被发现以来,细胞因子相关的研究一直是国际免疫学研究的热点问题。细胞因子的研究有助于阐明分子水平的免疫调节机制,有助于疾病的预防、诊断和治疗,利用细胞因子治疗肿瘤、感染、造血功能障碍以及自身免疫病等已有了初步成效。因此,新型细胞因子的发掘与研究具有深远而广泛的理论意义和实际应用价值。随着生物信息学的迅速发展,细胞因子的研究不再单纯依靠实验手段。到1990年代末期,新型细胞因子的发掘越来越多地借助于生物信息学工具的指导。以白介素(Interleukin,IL)为例,从2000年至今,至少有IL19~IL32等十几种新型白介素得以发现。在此过程中,生物信息学的序列分析和数据库搜索等手段发挥了重要作用。但是,一方面,已有研究中的大部分方法依赖于一些机构自主开发的商业化的数据库,普通研究者无法获得使用机会,限制了细胞因子发掘工作的长足发展;另一方面,已有研究中的生物信息学方法往往只是简单应用,缺乏对细胞因子相关数据的系统而深入地挖掘。
利用生物信息学手段进行新型细胞因子发掘工作的主要瓶颈问题在于,细胞因子家族进化速率高,家族成员序列保守性低(相似程度一般在30%左右),因此采用传统方法通过BLAST工具搜索数据库难以发现数据库中蛋白质家族的远同源关系的新成员。然而,细胞因子家族在保持结构和功能的相似时,在较长序列上仍然会保留少数相似位点的痕迹。基于此,本文提出一个细胞因子发掘的生物信息学策略,通过模体(Motif)识别刻画细胞因子家族的特征来发掘新型细胞因子。
本文首先比较分析了当前常用的几种模体识别方法。重点阐述了MEME、GreedyEM、HMM和PSTs等四种模体识别方法的特点,发现MEME和HMM方法更具优势。于是,文中提出一种新的模体评价策略来定量分析这两种方法的优劣。把模体看作分类器(Classifier),模体对数据集的搜索看作分类器对数据集中序列的分类。选择了PROSITE数据库中的七个细胞因子家族作为七个数据集,分别采用MEME和HMM方法对每个训练集进行模体识别。通过计算每个数据集上模体的敏感性和特异性以及比较它们对应的接收机操作特性曲线(ReceiverOperatingCharacteristicCurves),比较了不同模体的优劣。最终发现MEME和HMM任何一种方法都没有绝对的优势。因此必须根据对训练集的具体分析选择不同的模体识别方法。
其次,模体识别效果的好坏,既取决于模体识别方法的选择,也取决于蛋白质家族训练集的选择。根据是否具有直接或间接参与机体的造血调控功能,本文选择了造血细胞因子家族为一个训练集;通过结合文献和已知三级结构的细胞因子的分类,文中将细胞因子家族按照结构分类做了补充和完善,并根据结构分类选择短链和长链4α螺旋家族为两个结构训练集;另外还选择了功能和结构均保守的IL10家族作为训练集。为了观察细胞因子家族的保守位点和家族成员之间的亲缘关系,对四个训练集的蛋白质序列分别进行了多重比对和进化树分析。由于MEME方法对这四个家族的搜库结果假阳性过高,本文选择HMM方法对四个细胞因子家族构建HMM模体。根据不同训练集的特点,对造血细胞因子家族的两个训练集建立了六个HMM,对其他三个家族的细胞因子分别建立一个HMM。每个模体对三个蛋白质序列数据库:全物种的SWISS-PROT数据库、人源的IPI数据库和人源的Nr数据库进行搜索,识别每个数据库中与模体匹配的蛋白质,并去除冗余,获得待筛选的候选蛋白质。
最后,在数据库搜索的结果中筛选和预测可能的细胞因子是比较艰难的工作,并没有现成的标准可供直接利用。从计算的角度出发,判断搜库结果的好坏主要看搜库获得的蛋白质与已知模体匹配的得分和统计的E值。得分越高,E值越低,模体与蛋白质序列匹配的越好。也就是说,两者的匹配缘于偶然的可能性越小。同时,训练集家族的固有的生物学特征是判断搜库获得的蛋白质(目标蛋白质,Subjectprotein)是否与建模家族有关的重要依据。目标蛋白质与建模家族细胞因子具有相同或相近的生化特征越多,目标蛋白质就越可能是新型细胞因子。细胞因子的特点是低分子量分泌型蛋白,分子量大多在15kD到30kD之间。虽然序列相似性很低,但是同一家族细胞因子成员在二级结构上比较相近,并且部分细胞因子的染色体定位聚于一簇,细胞因子的分子量、等电点、疏水性值的范围也比较类似。因此,为了提高细胞因子预测的精度和分析、解释数据库搜索结果的客观性,文中提出了根据已知细胞因子家族的蛋白质特征进行筛选搜索数据库的结果中目标蛋白质的标准,主要包括蛋白质的序列长度、染色体定位、二级结构、分子量、等电点、疏水性及是否含有已知结构域等。在分析造血细胞因子家族、短链4α螺旋家族、长链4α螺旋家族和IL10家族四个细胞因子家族的生化特征的同时,提取和分析了目标蛋白质的生化特征。并结合搜索数据库的得分、E值和生化特征的比较,对每个家族的搜索结果蛋白质成为细胞因子家族新成员的可能性或具有类似细胞因子功能的可能性做出客观地解释和推断。
此外,本文还包含了SARS-CoV的进化起源的研究内容。2002年11月到2003年6月间,一种新型冠状病毒(被广泛称为SARS-CoV)突然出现,并很快肆虐全世界。为了研究、预防该病毒,弄清其来源成为当时广受关注的问题。本文研究了SARS-CoV种内基因组的变异以及各冠状病毒的基因组结构、保守基因、非保守ORF以及3UTR的s2m模体,系统地论述了SARS-CoV种内的变异情况及其与其他冠状病毒间的进化关系。从SARS-CoV与三组血清型冠状病毒进化关系、宿主分布,以及SARS-CoV和IBV的s2m的进化关系上,可以推测SARS-CoV有可能来自禽类。
综上所述,本文建立了利用模体识别来发掘新型细胞因子的策略,并采用该策略预测了四个细胞因子家族的新成员。同时,应用模体分析研究了SARS-CoV的系统发育,并推测其来源。