论文部分内容阅读
基因编辑在生命科学领域的科学研究和应用中扮演了越来越重要的角色,近年来,一种抑制CRISPR-Cas系统功能的蛋白——Acr,开始进入我们的视野,并且成为了当前研究的热点。Acr可以保护MGE片段,也可以作为调节基因编辑系统的工具。一些噬菌体通过Acr对CRISPR-Cas系统的抑制功能,成功地感染细菌并将其遗传材料整合到宿主的基因组中。由于目前我们对Acr的认识还十分有限,科学家们只能使用比较单一的方法在细菌中的基因组中定位大致的Acr,然后通过实验进行验证,费时费力。因此对Acr相关的特征进行系统的分析,设计一套完整的Acr识别系统,将极大地促进我们对Acr的了解和鉴定。为此,我们系统地调查了Acr的特征,结合机器学习的方法,利用决策树构建了一个比较准确的Acr识别系统。在本工作中,我们从五个角度分析了Acr的特征:1)与非Acr蛋白相比,Acr蛋白拥有较短的序列长度,分布在81~234aa的范围内;2)在Genbank中,Acr通常被注释为假定蛋白,而非Acr蛋白则有具体的功能;3)大部分的Acr的编码基因(66.7%)都位于基因组岛上,其中81.8%属于prophage;4)与非Acr不同,Acr的下游间隔不远处通常存在HTH结构域;5)Acr的编码基因域非Acr的编码基因在密码子使用偏性上存在显著的差异。为了收集到足够的数据用于构建决策树分类模型,我们通过BLAST和严格的条件筛选,获得了分布于2655个基因组的1413个Acr同源蛋白作为数据集。通过网格筛选和交叉验证,我们获得了最佳的训练参数并构建了决策树分类模型。在交叉验证中,我们的模型获得了为0.91的AUC值。对于正样本,精确率为79%,召回率为81%,f1-score为0.8;在5个独立集测试中,平均精确率达到了64.6%,召回率为90%,f1-score为0.75,并且预测结果的Acr数据均小于10个,这在一定程度上也大大减少了后续实验验证的成本。最后,为了将我们的模型提供给更多的人使用,我们编写了一个完整的Acr预测流程,并创建了一个在线服务网站AcrDetector(http://cefg.uestc.cn/acrDetector),同时,我们还提供了一个本地版本(https://github.com/pudongkai/acrDetector.git)。