论文部分内容阅读
本研究通过文献挖掘和生物信息学分析,对细菌基因组岛和其相关遗传元件进行了识别和比较分析。并以碳青霉烯酶KPC产生菌肺炎克雷伯菌临床菌株HS11286为例进行了具体分析。 细菌基因组差减杂交模拟工具mGenomeSubtractor可以对细菌基因组岛进行快速预测和分析。为进一步完善该工具和提高人机交互性,我们对程序代码进行了升级,增强了运行稳定性和结果的可靠性。数据管理方面通过改善数据存储结构和处理方案,大幅减少了数据冗余,节省了存储资源,并方便后续的数据更新。任务管理引入了作业调度系统运行mGenomeSubtractor2的核心计算任务,避免了多个用户同时提交任务时造成的系统崩溃问题;通过修改大量bug和对程序处理进行优化,增强了程序的稳定性。而且为了适应软件和硬件环境的变化,提高运行效率,我们采用并比较了三种方案从而对限速步骤mpiBLAST的核心参数进行优化,选取最优的方程作为参数选择方案,明显提高了运行效率。同时,我们更新了本地基因组数据库,增加了2078个可供用户选择进行比较分析的细菌复制子。而对不完全测序的细菌基因组,也开发了contig/scaffold分析模块,能够一步实现基因组草图的ORF预测和差减杂交分析。 部分细菌基因组岛中存在IV型分泌系统(T4SS),并且依赖 IV型分泌系统实现接合转移。我们通过文献挖掘以及比较基因组学的方法,共收集了10752个组分蛋白,构成811个T4SSs;包括95个已经被实验验证的T4SSs,在这其中有95%的T4SSs有相应文献描述。同时收集了1884个T4SS效应物,其中1638个有文献支持。对T4SSs数据信息进行分析挖掘,匹配了组分蛋白、T4SSs、效应物以及相关文献等的对应关系,为开发IV型分泌系统数据库提供数据支持。在T4SSs分类方案中,我们定义了两类新的T4SS家族。我们在肺炎克雷伯菌HS11286染色体上预测出两个T4SSs,在其中一个质粒上预测得到一个T4SS。它们的功能有待进一步研究,目前没有发现已知效应物的存在。 tRNA和tmRNA基因的3’-端是细菌基因组岛在染色体上的常见插入位点,但对ncRNA基因与基因组岛的关系还没有系统的研究报道。为识别完全测序细菌基因组中的ncRNA基因,我们对常用ncRNA预测工具sRNAPredict和PORTRAIT进行评估。结果发现两种工具预测效果各有优缺,且均随基因组G+C含量不同而产生明显变化。提取并依据不同G+C含量细菌基因组中ncRNA基因启动子和终止子区域的序列特征,能提高sRNAscanner预测ncRNA基因的准确性。因此我们认为不同G+C含量基因组中ncRNA基因转录单元特征是ncRNA基因预测的重要参数之一,这为提高ncRNA基因的准确预测提供新的思路。同时我们对肺炎克雷伯菌HS11286中ncRNA基因进行识别,探究了其与基因组岛的位置关系,发现基因组岛周围或者内部有可能存在ncRNA基因。 重复基因之间存在的剂量补偿和功能补偿作用,可能对细菌耐药性的产生有一定贡献作用。而目前并没有针对原核基因组的重复基因识别工具,因此我们开发了细菌基因组中重复基因的网上快速识别工具triP。为探讨triP预测重复基因的准确性,以肺炎克雷伯菌HS11286为测试对象,预测出了46个可能的重复基因。5个groups中的11个重复基因与DEG数据库中细菌持家基因同源,其中两个groups中的重复基因有文献支持。这表明triP对细菌重复基因的预测有一定的准确性。