论文部分内容阅读
2013年,Bondy-Denomy等人首次发现了一类小分子蛋白,噬菌体和其它可移动分子可以借此逃脱细菌和古菌CRISPR-Cas系统的免疫伤害。这些蛋白可采用直接结合的方式、位点修饰的方式抑制Cas蛋白的活性,根据该类蛋白抑制CRISPRCas系统的特性,Bondy-Denomy等人将其命名为抗CRISPR-Cas蛋白,简称Acrs。本文的主要工作围绕Acrs进行。本工作从相关文章收集了目前已经报道的Acrs数据,并从相关资源库中收集了Acrs相关的信息。例如,本文从NCBI中收集了Acrs的物种来源、编码基因,从STRING(https://string-db.org/)、DIP(http://dip.doe-mbi.ucla.edu/)等数据库中收集了蛋白的相互作用信息,从毒力因子数据库VFDB(http://www.mgc.ac.cn/VFs/)中收集了Acrs与毒力因子的序列相似性信息。进一步汇总这些信息,构建了一个在线、综合的数据库Anti-CRISPRdb(http://cefg.uestc.cn/anti-CRISPRdb2),其中包括400多条记录。随着时间推移,越来越多的Acrs及其家族被发现,于是我们更新了第一个版本的数据库,可以从链接http://cefg.uestc.cn/anti-CRISPRdb/访问。更新版本中包含更多的家族和家族成员信息,新增加了6种抑制类型的Acrs;新版本将NCBI基因组浏览器整合进来,用户可以借此查看Acrs周边蛋白的情况;本工作通过将Acrs和PDB数据库(https://www.rcsb.org/)中的所有蛋白质链进行比对,进而增添了更多的结构信息,其中包括320多个Acrs结构信息。本文工作又基于Anti-CRISPRdb数据库进一步分析了Acrs的特征,分析表明Acrs和非Acrs有明显可区分的特征,具体表现在:Acrs比非Acrs短很多,并且比非Acrs具有更显著的密码子使用偏差,原核生物基因组内大量的Acrs被注释为假设蛋白、功能未知蛋白。本文工作通过分析也发现Acrs演化上的一些特点:1)Acrs多数位于基因组岛和前噬菌体片段上表明了Acrs的水平转移事件;2)Acrs相对于基因组的密码子使用偏差表明Acrs是近期转入到宿主菌中;3)有些Acrs在邻近的物种间连续分布表明了某些Acrs近期的转入事件,并在近邻物种间进行了扩张。为了定量刻画基因位于基因组岛或者前噬菌体片段上的可能性,本文工作定义并提出了一个无序列比对的参数dev,该参数是基于基因密码子相对于基因组密码子使用偏差进行的度量。基于Acrs的特征和演化上的特点,本文工作又构建了基于随机森林的识别算法。多次不同随机状态下的交叉验证表明该方法可以获得平均99.75%的准确率、平均75.1%的召回率、平均86.1%的查准率,跨物种交叉验证表明该方法可以将71.4%的真正的Acrs排在预测结果的前10名,该算法也能从新近识别Acrs的物种中准确识别出4个Acrs。基于本文的Acrs识别算法,本论文工作设计了一个网络服务,与此同时也在Git Hub上发布了本地版本,并将其命名为Acr Detector(http://cefg.uestc.cn/acr Detector)。Acr Detector不依赖于同源搜索,因此可以发现新的Acrs。另外,Acr Detector依赖于基因组背景特征,可以作为其它基于序列组成特征的补充工具。虽然Acr Detector可以识别潜在的Acrs,但是却不能识别它所抑制的CRISPRCas系统类型,准确识别候选物种CRISPR-Cas系统类型是识别Acrs抑制类型的关键。为此,本工作将马尔可夫图聚类算法和延伸最大连续Cas子簇的方法引入到Cas蛋白、cas基因座和基因座类型的注释中,这使得本工作的方法可以识别融合的Cas蛋白,并可以识别更加精确的cas基因座。此外,本论文工作也开发了Cas Locus Anno工具(http://cefg.uestc.cn/Cas Locus Anno/index.html)用于Cas蛋白、cas基因座和类型的注释,将并行运算运用到Cas Locus Anno工具中,以便加速注释速度。本文工作测试了Cas Locus Anno的执行效率和识别能力,对于大部分的测试数据Cas Locus Anno可以在29秒内完成注释,大部分物种可以在27.5秒以内的时间完成注释,Cas Locus Anno和CRISPRCas Finder的比较结果表明Cas Locus Anno的准确性比CRISPRCas Finder高出5%,且附加预测率要比CRISPRCas Finder低1.4%。