抗CRISPR-Cas蛋白的生物信息学分析与识别研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xacxd1964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2013年,Bondy-Denomy等人首次发现了一类小分子蛋白,噬菌体和其它可移动分子可以借此逃脱细菌和古菌CRISPR-Cas系统的免疫伤害。这些蛋白可采用直接结合的方式、位点修饰的方式抑制Cas蛋白的活性,根据该类蛋白抑制CRISPRCas系统的特性,Bondy-Denomy等人将其命名为抗CRISPR-Cas蛋白,简称Acrs。本文的主要工作围绕Acrs进行。本工作从相关文章收集了目前已经报道的Acrs数据,并从相关资源库中收集了Acrs相关的信息。例如,本文从NCBI中收集了Acrs的物种来源、编码基因,从STRING(https://string-db.org/)、DIP(http://dip.doe-mbi.ucla.edu/)等数据库中收集了蛋白的相互作用信息,从毒力因子数据库VFDB(http://www.mgc.ac.cn/VFs/)中收集了Acrs与毒力因子的序列相似性信息。进一步汇总这些信息,构建了一个在线、综合的数据库Anti-CRISPRdb(http://cefg.uestc.cn/anti-CRISPRdb2),其中包括400多条记录。随着时间推移,越来越多的Acrs及其家族被发现,于是我们更新了第一个版本的数据库,可以从链接http://cefg.uestc.cn/anti-CRISPRdb/访问。更新版本中包含更多的家族和家族成员信息,新增加了6种抑制类型的Acrs;新版本将NCBI基因组浏览器整合进来,用户可以借此查看Acrs周边蛋白的情况;本工作通过将Acrs和PDB数据库(https://www.rcsb.org/)中的所有蛋白质链进行比对,进而增添了更多的结构信息,其中包括320多个Acrs结构信息。本文工作又基于Anti-CRISPRdb数据库进一步分析了Acrs的特征,分析表明Acrs和非Acrs有明显可区分的特征,具体表现在:Acrs比非Acrs短很多,并且比非Acrs具有更显著的密码子使用偏差,原核生物基因组内大量的Acrs被注释为假设蛋白、功能未知蛋白。本文工作通过分析也发现Acrs演化上的一些特点:1)Acrs多数位于基因组岛和前噬菌体片段上表明了Acrs的水平转移事件;2)Acrs相对于基因组的密码子使用偏差表明Acrs是近期转入到宿主菌中;3)有些Acrs在邻近的物种间连续分布表明了某些Acrs近期的转入事件,并在近邻物种间进行了扩张。为了定量刻画基因位于基因组岛或者前噬菌体片段上的可能性,本文工作定义并提出了一个无序列比对的参数dev,该参数是基于基因密码子相对于基因组密码子使用偏差进行的度量。基于Acrs的特征和演化上的特点,本文工作又构建了基于随机森林的识别算法。多次不同随机状态下的交叉验证表明该方法可以获得平均99.75%的准确率、平均75.1%的召回率、平均86.1%的查准率,跨物种交叉验证表明该方法可以将71.4%的真正的Acrs排在预测结果的前10名,该算法也能从新近识别Acrs的物种中准确识别出4个Acrs。基于本文的Acrs识别算法,本论文工作设计了一个网络服务,与此同时也在Git Hub上发布了本地版本,并将其命名为Acr Detector(http://cefg.uestc.cn/acr Detector)。Acr Detector不依赖于同源搜索,因此可以发现新的Acrs。另外,Acr Detector依赖于基因组背景特征,可以作为其它基于序列组成特征的补充工具。虽然Acr Detector可以识别潜在的Acrs,但是却不能识别它所抑制的CRISPRCas系统类型,准确识别候选物种CRISPR-Cas系统类型是识别Acrs抑制类型的关键。为此,本工作将马尔可夫图聚类算法和延伸最大连续Cas子簇的方法引入到Cas蛋白、cas基因座和基因座类型的注释中,这使得本工作的方法可以识别融合的Cas蛋白,并可以识别更加精确的cas基因座。此外,本论文工作也开发了Cas Locus Anno工具(http://cefg.uestc.cn/Cas Locus Anno/index.html)用于Cas蛋白、cas基因座和类型的注释,将并行运算运用到Cas Locus Anno工具中,以便加速注释速度。本文工作测试了Cas Locus Anno的执行效率和识别能力,对于大部分的测试数据Cas Locus Anno可以在29秒内完成注释,大部分物种可以在27.5秒以内的时间完成注释,Cas Locus Anno和CRISPRCas Finder的比较结果表明Cas Locus Anno的准确性比CRISPRCas Finder高出5%,且附加预测率要比CRISPRCas Finder低1.4%。
其他文献
化石燃料的快速消耗和由此产生的环境污染已成为全球最重要的问题之一,因此,寻找可再生能源和先进的能源转换和储存技术已成为全球科学家的迫切需要。超级电容器具有充放电速度快、寿命长、维护成本低、功率密度高等优点,是近年来极具发展前景的储能技术。推动超级电容器应用的关键在于开发环境友好的优良电极材料。目前,多种材料已被研究用于超级电容器的电极材料。本论文着重于钼基双金属氧化物和层状双金属氢氧化物两种电极材
<正>低温和冷害在世界范围内广泛发生,对水稻的产量和品质造成严重影响。创造和培育具有强耐低温特性的水稻品种,对提高水稻产量具有重要的意义。NR158是江苏省农业科学院粮
会议
文章采用桥梁有限元软件MIDAS/CIVIL对60 m+100 m+60 m三跨连续梁进行建模,对结构整体进行力学行为分析,并用桥梁博士再次建模验算,将桥梁博士和MIDAS/CIVIL的部分计算结果列出,进行
以已建的小型住宅组团为例,分析了该类建筑设计中常见的问题,并提出了解决之路.
2018年12月4日至7日,格立莫创新大会GRIMMETECHNICA将在集团总部德国达莫举办.
项目管理作为一种科学管理方法和理念进行有意识的研究和适用,可追溯至工业革命前后,但直到20世纪初期才有了实质性的进步和完善,20世纪40年代的欧美国家开始逐步推广项目管理。项目管理已成为管理界的国际通用语言,国际知名轨道交通装备制造企业都建立了成熟完善的项目管理体系。中车S公司自2004年开始建立和实施项目管理体系以来,初步搭建了以项目交货期、质量、成本为主要目标,以项目组织、管理制度、人力资源、