论文部分内容阅读
基因水平转移是病毒基因组进化的一个重要动力,也是病毒获得新基因的重要来源,许多获得的新基因参与了宿主防御、免疫逃避、抗凋亡和细胞增殖调控等功能。因此对基因水平转移的研究在物种进化分析、基因功能预测等方面具有重要作用,同时有助于更好地了解病毒与宿主的关系,解析病毒感染的机制,在医药研究上也具有重要的实践指导意义。随着基因组测序计划的实施,很多疱疹病毒全基因组序列都已完成测序。利用全基因组序列信息,对疱疹病毒系统进化进行分析,能够有效地避免单基因分析中碰到的基因水平转移的干扰、直系同源基因的难于确定及进化中部分高变异率等问题。本论文利用生物信息学的方法预测了疱疹病毒中可能存在的水平转移基因,并应用全基因组序列数据对疱疹病毒作了系统进化分析。
论文的第一部分使用了三种方法对疱疹病毒中水平转移基因进行了预测。其中两种方法是通过分析基因中核苷酸组分来进行预测,一种方法使用SPSS中的判别模块来进行判别分析,另一种是使用支持向量机来进行判别分析。以哺乳动物疱疹病毒中20个保守基因作为非水平转移基因数据集、以4种哺乳动物中的保守基因作为水平转移基因数据集,输入SPSS的判别模块或SVM中的学习程序(svm learn.exe),得到判别函数或分类器文件,然后用判别函数或分类器对待测基因进行预测。两种方法预测的准确率均在90%以上,而且由于每个基因是用一个4<3>或4<2>维的矢量来表示,需要处理的数据量比以往大为减少,个人计算机就能完成。在这两种方法中,后种方法预测的准确率更高些,而且达到同样的预测准确率,需要处理的数据量更少些。用这两种方法在所有待测基因(2721个)中共预测出350个水平转移的基因,其中用SPSS判别的方法预测出141个,而用SVM判别的方法预测出302个,两种方法都预测出的基因有93个。在这350个基因中其中275个来自Gamma亚科,63个来自Beta亚科,12个来自Alpha亚科。虽然被预测出来的基因中多数的功能是未知的,但很多功能已经被发现或预测的基因多编码糖蛋白或膜蛋白。所有预测出的水平转移基因中,62个基因是被先前的文章预测过为水平转移基因或发现在细胞中有同源基因存在从而推测其可能为水平转移基因,其余288个基因是在本文中首次预测的水平转移基因,在这288个基因有14个基因已被发现参与了免疫、细胞凋亡、细胞增殖调控等方面的功能。本论文用于预测水平转移基因的另一种方法就是通过相似性搜索的方法,寻找在非病毒物种中存在的与疱疹病毒同源的基因,发现了23组蛋白家族可能是水平转移进入病毒中的基因表达的,并对其中14组蛋白家族的分子进化进行了研究,对它们可能的起源及起源的相对时间进行了推测。在这23组蛋白家族中,14组是在上面两种方法中预测过的。为了避免水平转移基因等因素对疱疹病毒系统进化分析的影响,论文的第二部分采用基于全基因组序列的系统进化分析方法对45株疱疹病毒的系统进化分析进行了研究。文章采用四种基于全基因组序列的分析方法:1、基于全基因组序列的保守基因分析方法;2、基于矫正了寡肽频率;3、基于局部相似性搜索的方法;4、基于基因内容(gene content)的方法。虽然结果与传统的分类大体上一致,但一些以前没有很好聚类的病毒(TuHV-1、BoHV-4、EHV-2、MuHV-4和PsHV-1)得到了较好的聚类,还有一些最近刚刚完成全基因组测序的病毒(OHV-2、RaHV-1、RaHV-2和KHV)也在本研究中进行了很好的聚类分析。