病毒蛋白质编码基因预测算法的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:anweiban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对病毒基因组的深入研究在许多方面都有很大帮助,特别是在治疗由病毒感染引起的人类疾病方面。随着病毒数据的快速积累,需要更加有效的基因识别方法来处理和挖掘这些数据。在本文中,我们提出了一个新的病毒基因预测和注释系统——Vgas,它结合了序列组成和序列相似性比对的方法,可以在基因组序列中自动查找病毒基因并实现基因功能注释。通过测试从Refseq下载的5705个病毒基因组,与现有的程序GeneMarkS,Prodigal和Glimmer做对比,Vgas证明了其优越性,具有最高的平均精确度和召回率(两个指数均比其他程序高1%以上),特别是对于基因组规模较小的病毒物种(≤10kb),它表现出显著的性能(精确度高6%,召回率高2%)。此外,Vgas提供了一个注释功能,用于根据BLASTp比对提供预测基因的功能信息,而且我们还根据这个信息找出了86个refseq数据库缺失的基因数据。另外,测试证明,当Vgas与GeneMarkS、Prodigal结合使用时,可以获得比三个单独程序中的每一个都更好的预测结果,使用这几种不同软件程序的协作预测将是基因预测的更好的方案。现在,Vgas可在http://cefg.uestc.cn/vgas/免费使用。然而Vgas在处理噬菌体数据和双链DNA病毒时效果较差,相比之下精准度和召回率都较低,考虑到这个局限性,我们又尝试使用深度学习方法进行病毒基因识别,本次试验应用了卷积神经网络,设计了共8层网络结构,在使用Uniprot构建的数据集上五重交叉验证进行测试,F值达到了98%,此模型深入研究有机会可以得到弥补当前Vgas不足的新系统。
其他文献
根系是陆生植物的重要营养器官,在植物的生长发育过程中有着不可估量的作用,除了能固定植物外,还能从土壤中吸收各种营养物质,分泌有机物质,与微生物相互作用,根毛的存在进一
目的:探讨临床护理路径在病毒性肝炎肝硬化患者中的应用.方法:选取2018年2月~2019年4月在我院就诊的病毒性肝炎患者100例,根据随机数字表法进行分组,即对照组50例和观察组50例
目的:观察优质护理在剖宫产围术期的临床价值.方法:随机将我院2019年1月~2020年1月收治的80例选择剖宫产术的产妇分为两组,每组40例.对照组行常规护理,观察组在上述基础上行优
目的:评价心理护理干预对慢性胃炎患者的效果观察及SAS、SDS评分的影响.方法:对象为100例慢性胃炎患者,患者就诊时间段为2018年11月~2019年11月期间,将其中实施一般护理干预的
目的:分析中药饮片质量不合格的原因,探讨管理措施,提高入库验收质量.方法:收集我院中药房信息库2019年1月-2019年12月记录的中药饮片入库验收情况,计算总批次及不合格批次数