Acr基因的保守特征分析与自动化识别方法的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:johnchen1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因编辑在生命科学领域的科学研究和应用中扮演了越来越重要的角色,近年来,一种抑制CRISPR-Cas系统功能的蛋白——Acr,开始进入我们的视野,并且成为了当前研究的热点。Acr可以保护MGE片段,也可以作为调节基因编辑系统的工具。一些噬菌体通过Acr对CRISPR-Cas系统的抑制功能,成功地感染细菌并将其遗传材料整合到宿主的基因组中。由于目前我们对Acr的认识还十分有限,科学家们只能使用比较单一的方法在细菌中的基因组中定位大致的Acr,然后通过实验进行验证,费时费力。因此对Acr相关的特征进行系统的分析,设计一套完整的Acr识别系统,将极大地促进我们对Acr的了解和鉴定。为此,我们系统地调查了Acr的特征,结合机器学习的方法,利用决策树构建了一个比较准确的Acr识别系统。在本工作中,我们从五个角度分析了Acr的特征:1)与非Acr蛋白相比,Acr蛋白拥有较短的序列长度,分布在81~234aa的范围内;2)在Genbank中,Acr通常被注释为假定蛋白,而非Acr蛋白则有具体的功能;3)大部分的Acr的编码基因(66.7%)都位于基因组岛上,其中81.8%属于prophage;4)与非Acr不同,Acr的下游间隔不远处通常存在HTH结构域;5)Acr的编码基因域非Acr的编码基因在密码子使用偏性上存在显著的差异。为了收集到足够的数据用于构建决策树分类模型,我们通过BLAST和严格的条件筛选,获得了分布于2655个基因组的1413个Acr同源蛋白作为数据集。通过网格筛选和交叉验证,我们获得了最佳的训练参数并构建了决策树分类模型。在交叉验证中,我们的模型获得了为0.91的AUC值。对于正样本,精确率为79%,召回率为81%,f1-score为0.8;在5个独立集测试中,平均精确率达到了64.6%,召回率为90%,f1-score为0.75,并且预测结果的Acr数据均小于10个,这在一定程度上也大大减少了后续实验验证的成本。最后,为了将我们的模型提供给更多的人使用,我们编写了一个完整的Acr预测流程,并创建了一个在线服务网站AcrDetector(http://cefg.uestc.cn/acrDetector),同时,我们还提供了一个本地版本(https://github.com/pudongkai/acrDetector.git)。
其他文献
目的:以参芪益母膏为研究对象,根据参芪益母膏处方中各药材有效成分的理化性质差异,采取不同的提取溶剂和方法优化制备工艺。在优化制备工艺的基础上,运用现代仪器分析方法与
文章开篇围绕习近平新时代中国特色社会主义思想内容,从强国复兴、人民为本、立德树人三方面指出了美育的新时代价值。继而探讨了改进高校美育工作所应遵循的设计理念与理论
电推进作为一种先进的空间推进技术,具有高比冲、寿命长的优势,在轨道转移、深空探测等领域存在广阔的应用前景。作为电推进系统的重要组成部分,电源处理单元(Power Processing Unit,PPU)调节太阳能电池板产生的电流,给电推进器和其他负载供电,其输出电压和输出功率决定了推力器的主要性能,高效率、高功率密度和高压大功率输出成为未来PPU的发展方向。本文采用新型GaN晶体管,研制了一台四管
作为“世界第一运动”的足球运动,在全球的影响力颇深,广受各国人民的喜爱,但在我国足球运动却难以冲出亚洲走向世界,国字号足球队的竞技成绩表现较差。据资料统计,中国足球成年国家队球员的出生年龄段主要集中在1985年1988年,而我国出生年龄段在2001年至2004年这区间的职业球员只有1千人左右,但是2018年俄罗斯世界杯中国有6.557亿人次收看,由此可以看出中国足球的发展道路上最关键的因素就是后备
随着人们对环保问题的重视,由于粘土红砖对环境的污染和资源的浪费,已经逐渐的淡出了建筑行业,随之各类的新型建筑材料应运而生。其中小型的空心砌块以其节能、美观,抗震性能
李桂兰今年61岁,老家在黑龙江,现跟子女一起在江苏省昆山市生活。2012年,李阿姨出了交通意外,左腿骨折行动不便,白天子女上班,她独自在家连个说话的人都没有,成了“孤家寡人”。“新
近年来,广大社会组织为经济社会发展做出了重要贡献,得到了全社会的充分肯定与广泛认同与此同时,由于相关服务管理工作不到位、培育扶持资金不足等诸多原因,社会组织转变发展方式