论文部分内容阅读
目的:
1、为了更好地对疟原虫蛋白家族进行比较基因组学和功能基因组学方面的研究,构建疟原虫蛋白家族数据库;
2、开发一个功能齐全、高度整合的生物信息学分析平台,为疟疾研究及相关科研工作者提供良好的数据分析工具和平台。
方法:
1、对六个现有的疟原虫基因组蛋白序列数据进行All-against-All BLAST搜索,再用TribeMCL软件包中Mclblastline程序进行蛋白家族聚类,再用PERL程序提取蛋白家族信息以用于蛋白家族数据库构建;
2、用疟原虫蛋白序列对PDB、Swiss-Prot和RefSeq三个数据库进行BLAST同源搜索,所得结果分别用PERL程序进行提取,以用于构建数据库;
3、用HMMER软件包中的Hmmpfam程序对Pfam数据库进行蛋白结构域搜索,输出结果用PERL程序提取,以用于数据库构建;
4、用BLAST序列相似性程序对KEGG Ortholog(KO)数据库进行搜索,用PERL程序提取输出结果,然后用统计学方法推测各家族的功能,并对其进行注释;
5、以Linux为服务器,MySQL为数据库管理软件,根据以上各步所得数据设计数据表,采用BigDump和phpMyAdmin等软件把数据导入数据库,构建成蛋白家族数据库;
6、以Apache为网络服务器,使用Dreamweaver、UltraEdit、Photoshop、Activeperl等软件,以PHP、HTML、JavaScript、Ajax、PERL等语言进行编程构建生物信息学数据分析平台。
结果:
1、六个疟原虫基因组总共含有40,273条蛋白基因序列,同源聚类分析得到了8,089个蛋白家族,总共有50种大小的家族,其中最大家族有1,107个成员,最小的家族只有1个成员;
2、按家族大小来分,家族个数最多是1个成员的家族,有3,203个,其次是6个成员的,有1,094个,家族大多集中有12个成员以下家族大小段,17个成员以上的家族比较稀少;
3、按物种基因分布看,P. berghei、P. chabaudi、P. falciparum三个物种在各种大小家族中分布比较均匀;P. knowlesi和P. vivax两个物种在小于12个成员的家族中占优势;而P.yoelii在多于12个成员的家族中相对占优势;
4、家族大小分别为98和178的两个家族中的所有成员都来自P. falciparum,其中可能存在物种特意性的基因扩增;
5、构建了蛋白家族数据库PlasmoGF,并以其为基础构建了功能齐全的生物信息学分析平台(http://www.bioinformatics.zj.cn/pgf/)。该平台包含了文本和BLAST数据库搜索、多序列比对、进化树构建等数据操作板块,并开发了数据工作集Work-Set作为用户数据存储的容器,并作为各步数据操作的纽带。
结论:
1、成功构建了国际上第一个疟原虫蛋白家族数据库PlasmoGF,经人工评估,其数据比较可靠,可作为疟疾研究工作者研究疟原虫蛋白功能的很好的参考资源;
2、搭建了功能齐全的生物信息学分析平台,为搜索数据库中的蛋白家族数据并做比较基因组学与功能基因组学研究提供方便,为疟疾研究者研究疟原虫基因提供了很好工具和平台;
3、本数据库和相应的数据分析平台对疟疾工作者有很大实用意义,特别为研究者在设计疟原虫药物时寻找合适的靶点提供很大的帮助。