论文部分内容阅读
对病毒基因组的深入研究在许多方面都有很大帮助,特别是在治疗由病毒感染引起的人类疾病方面。随着病毒数据的快速积累,需要更加有效的基因识别方法来处理和挖掘这些数据。在本文中,我们提出了一个新的病毒基因预测和注释系统——Vgas,它结合了序列组成和序列相似性比对的方法,可以在基因组序列中自动查找病毒基因并实现基因功能注释。通过测试从Refseq下载的5705个病毒基因组,与现有的程序GeneMarkS,Prodigal和Glimmer做对比,Vgas证明了其优越性,具有最高的平均精确度和召回率(两个指数均比其他程序高1%以上),特别是对于基因组规模较小的病毒物种(≤10kb),它表现出显著的性能(精确度高6%,召回率高2%)。此外,Vgas提供了一个注释功能,用于根据BLASTp比对提供预测基因的功能信息,而且我们还根据这个信息找出了86个refseq数据库缺失的基因数据。另外,测试证明,当Vgas与GeneMarkS、Prodigal结合使用时,可以获得比三个单独程序中的每一个都更好的预测结果,使用这几种不同软件程序的协作预测将是基因预测的更好的方案。现在,Vgas可在http://cefg.uestc.cn/vgas/免费使用。然而Vgas在处理噬菌体数据和双链DNA病毒时效果较差,相比之下精准度和召回率都较低,考虑到这个局限性,我们又尝试使用深度学习方法进行病毒基因识别,本次试验应用了卷积神经网络,设计了共8层网络结构,在使用Uniprot构建的数据集上五重交叉验证进行测试,F值达到了98%,此模型深入研究有机会可以得到弥补当前Vgas不足的新系统。