基于序列组成的未知环境宏基因组快速序列分类系统

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:clone111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景:在宏基因组序列分类的问题上,目前已有的宏基因组序列分类软件大多对参考基因组有较高的依赖性。当环境样本中存在大量未收录/注释物种时,使用这些软件分类将产生大量分类为“未知”的结果,从而影响研究人员对样本整体的理解。结果:本课题在前期开发的基于序列组成的环境宏基因组序列快速分类系统–Meta Bin G的基础上,增加了环境中物种组成结构的信息以提高宏基因组序列分类的准确率;并通过采用CPU并行与GPU并行结合的方法提高GPU负载率,从而实现了在Meta Bin G基础上的进一步加速。第二代环境宏基因组序列快速分类系统MetaBinG2可以在4分钟内完成100万条长度为100bp的测序数据的分类。经过在多套模拟与真实测试数据上的评估分析,并与现有软件比较,发现对于包含大量未知物种的环境样本,MetaBinG2的序列分类能力高于其他软件。此外,还利用MetaBinG2分析真实世界的环境宏基因组数据Meta SUB,并从中得到了一些有价值的结果。为了更好地展示和解释分析结果,MetaBinG2系统还提供了对分类结果的统计和可视化功能,用以辅助研究人员更好地理解环境样本中的物种分布情况。结论:MetaBinG2可以实现对未知环境宏基因组序列的快速分类。MetaBinG2系统可以通过以下地址访问:http://cgm.sjtu.edu.cn/MetaBinG2Web.
其他文献
随着互联网的发展,海量的信息使得用户难以发现自己感兴趣的内容,于是用于信息处理的推荐系统应运而生,个性化的推荐为广大用户带来了极大的便利。传统的协同过滤推荐系统主
物体的环境光遮蔽作为一个物体固有的物理属性在三维重建,本证图像分解等诸多图像领域占据着重要的地位,他的物理意义是定义了每个点的局部可见性,更具体的说是它估计了每个
背景及目的我国是脑卒中高发国家之一,近年来脑卒中已成为首位老年人致死性和致残性疾病。卒中后认知障碍(post-stroke cognitive impairment,PSCI)是脑卒中后的常见不良结局,多发生于急性缺血性脑卒中(acute ischemic stroke,AIS)后的3~6个月之内,卒中后早期其发生率高达90%,发病6个月后仍有30%~40%的患者存在认知障碍。脑卒中患者在执行、视
创新是企业发展的重要因素,现有关于创新的研究重点集中在影响因素方面,其中,这些影响因素可以归纳为两类:“能力”和“阻力”,“能力”和“阻力”共同影响创新过程。因此,在
微波光子学技术和基于微波光子技术的光载无线(Radio-over-Fiber,RoF)通信系统是近年来光学领域和射频电子领域研究的重点。微波光子学技术使得用光学器件生成高频率微波信号
根据生成语法理论,合并是语言运算系统中一种最基本的操作手段。合并就是将属于不同语法范畴的两部分结构组合在一起形成新的、更大的,诸如短语、小句之类的句法操作过程。随
捕食者-食饵系统的动力学性质一直深受生态学和数学等方面的研究人员的关注。根据种群的具体情况,可以用连续模型或离散模型来描述这类系统,模型通常要反映影响捕食者-食饵相
互联网的高速发展和网络规模的急剧增加使网络数据流量呈指数形式增长,高性能计算、数据中心、网络直播、AR(增强现实)和未来的VR(虚拟现实)等对网络带宽、交换吞吐量均提出
众所周知,材料自身的均匀性对其使用性能有重要的影响,若沥青路面内部集料分布不均匀,则有可能出现过多的早期病害,直接影响沥青路面的长期使用性能。目前,现有的沥青路面均
随着移动通信技术和定位技术的飞速发展,基于位置服务(Location-based service,LBS)在世界范围内得到了广泛应用,特别是最近几年各种商业的LBS产品不断涌现,丰富了用户的日常