【摘 要】
:
宏基因组学可以直接从环境样本中提取微生物的DNA,已成为研究微生物的重要方法之一。叠连群是宏基因组学的基本研究对象之一,叠连群分箱可以提高潜在微生物基因组的完整度,为
论文部分内容阅读
宏基因组学可以直接从环境样本中提取微生物的DNA,已成为研究微生物的重要方法之一。叠连群是宏基因组学的基本研究对象之一,叠连群分箱可以提高潜在微生物基因组的完整度,为微生物研究奠定数据基础。针对当前的叠连群分箱方法中准确率有待提高、运行耗时过长等问题,论文提出了一种基于流形学习和K-Means聚类的叠连群分箱方法。主要研究内容如下:(1)基于梯度提升的叠连群特征工程针对叠连群序列数据常用特征对分箱准确率影响程度不同的问题,论文使用梯度提升模型对常用的特征进行了评估和选择。首先,基于Py Feat方法提取了叠连群序列数据Z曲线、GC含量、ATGC比率、累积偏斜、k-mer等特征;其次,基于极度梯度提升树模型计算所有特征分量的重要度;第三,扩展了极度梯度提升树模型的应用范围,得到面向多分量特征的极度梯度提升树模型,计算出叠连群特征重要度;最后,按照重要度倒排序叠连群特征,筛选出重要度最大的叠连群分箱特征。在叠连群标准数据集Strain Mock上计算得到的对叠连群分箱重要度最大的特征是4-mer。(2)基于流形学习和K-Means的叠连群分箱方法针对叠连群数据维度较高,导致难以处理的问题,论文基于流形学习研究宏基因组叠连群特征非线性降维方法,得到高维空间中分箱特征的低维流形嵌入结果。针对叠连群分箱数估计方法不准确,且计算效率较低、耗时较长的问题,论文基于贝叶斯推理和K-Means研究了叠连群分箱数估计方法,采用贝叶斯推理的高斯混合模型聚类流形嵌入结果,将聚类数k作为K-Means初始值,迭代计算聚类结果的轮廓系数,取轮廓系数最大值对应的聚类数K为最终分箱估计数。为实现更高效准确的叠连群分箱方法,在分箱特征流形嵌入的结果和分箱估计数K的基础上,使用K-Means计算叠连群分箱结果。在叠连群数据集Strain Mock和Species Mock上进行了实验,分析表明,对比了12种不同的叠连群分箱数估计方法,论文提出的基于贝叶斯推理和K-Means的分箱数估计方法效果最佳;对比了Meta BAT、COCACOLA和Solid Bin等3种分箱方法,论文提出的基于K-Means的分箱方法在Species Mock数据集上的准确率、归一化互信息及调整兰德指数等性能指数分别达到了0.99864、0.99813和0.99723,且运行时间效率提高了80%。
其他文献
太赫兹(THz)波的电磁频谱位于毫米波和红外之间,频谱范围为0.1THz到10THz,与两者相比有着很多独特性质,在安全检查、物质检测等领域有着广阔的应用前景。但是长期以来,由于太
新能源发电装置以分布式电源的形式并网,通过逆变器等设备向电网提输送电能,因而必须准确地获取电网电压的相角、频率和幅值等信息,通常使用锁相环实现对电网电压基频分量的
在微纳尺度领域,当两个介质之间的间距小于特征波长时,光子隧穿效应对辐射贡献作用显著,极大地增强两介质之间的近场辐射换热。因此近场热辐射在微机电系统或强化换热等工程应用中有重要发展意义。而石墨烯因为具有独特的力学、光学等物理特性,近年受到多领域研究者的关注。石墨烯表面等离激元存在太赫兹至中红外的宽频谱范围内,具备很强的可调节特性以及近场区域耦合增强近场热辐射的优势。本论文主要研究了石墨烯复合结构在强
党的十九大报告明确指出,目前我国扶贫大格局基本形成,脱贫攻坚迈上新的台阶,2020年我国的奋斗目标是:打赢脱贫攻坚战,全面建成小康社会,实现农村人口全面脱贫,不愁吃、不愁
语音是人类信息交互最原始、最便捷的方式,随着科技和经济的发展,在智慧人机交互中展现出其优越性。然而在现实生活中由于用嗓不当等因素,致使声带病变,从而影响正常言语交流
随着城市快速发展和人口聚集,超高层建筑成为解决城市土地紧张问题的重要手段。超高层建筑施工过程中,结构高大复杂,施工难度大,荷载持续变化,应急救援困难。超高层主体结构
装配式混凝土(Precast Concrete简称PC)框架结构作为装配式建筑最主要的结构形式之一,以其高效便捷、适用于建筑工业化的特点在未来必将得到全面推广。但是PC框架由于装配的
搅拌摩擦焊是一种简单但不失先进的固态焊接方法。在其焊接过程中,实时监测、控制焊接刀柄的压力、转矩、温度等参数对设备的安全运行和稳定焊接质量具有重大意义。然而实际工况下的焊接刀柄处于高速旋转状态,导致能源供给和信号传输是该测试工作的关键和难点。电感耦合电能传输(Inductive Coupled Power Transmission,简称ICPT)技术在无线电能传输中已经发展为比较成熟的技术,该技术
地理专用教室集教学区、活动区等多功能区域为一体,满足地理学科多样化的教学需求,支持地理演示、地理观测、地理实验等多种活动的展开。在富有多样化、沉浸性的地理教学空间
随着交通量的发展,装配式简支梁桥由于抗弯承载力不足以承受重载车辆甚至是超载车辆的作用,容易出现诸多病害。提升抗弯承载力的加固方法有多种,其中预应力碳纤维板加固相比其他加固方法具有轻质高强、施工简单、材料强度利用率高等优点。但现有的研究主要针对房屋建筑中较小的截面,缺少适用于桥梁结构断面尺寸的相关研究,并且预应力碳纤维板加固装配式简支梁抗弯承载力、抗弯刚度没有明确的规范计算公式。因此,为研究预应力碳