基于k-mer频度实现免于配准的碱基序列比较分析

来源 :厦门大学 | 被引量 : 0次 | 上传用户:clubshe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
碱基序列作为生物遗传信息的主要载体,已经成为人们研究物种遗传性状的重要桥梁。通过对基因组的研究,不仅可以获取基因组的功能信息,如调控、遗传变异等,还可以阐明不同物种在进化水平上的关系。通过对宏基因组的研究,可以揭秘微生物群落的物种多样性及功能多样性,进而探寻微生物群落与环境、宿主等之间的关系。碱基序列的比较对基因组、宏基因组的研究十分重要。随着高通量测序技术的发展,测序数据更加精准、全面,但是也带来数据量庞大、信息碎片化等问题。如何基于高通量测序数据对基因组、宏基因序列进行比较成为重要的研究课题。传统的序列比较方法将测序得到的读段(reads)配准到参考基因库中获取相关的物种信息或者将reads拼接成长序列(contig)再进一步分析,但是这种方法不仅受到参考基因库的限制,而且在拼接及比对的过程中会带来大量的时间消耗。因此,本文针对来自不同组别(如健康人和病人)的测序样本集的比较提出基于k-mer频度,免于配准、免于拼接的组别特异性序列识别方法,另外针对基因组比较提出免于配准、免于拼接的基因组关系的衡量方法并量化各个k-mer对刻画基因组关系的重要性。本文提出MetaGO模型,将长k-mer(≥ 30bp)序列作为特征,将在一组样本中出现且在另一组样本中不出现或者在两组样本间存在丰度差异的特征称为组别特异性特征,并在此基础上构建组别特异性特征识别模型。为了提高计算效率,我们将MetaGo部署在Apache Spark上以实现并行计算。本文将MetaGo应用于一个仿真数据集以及三个与疾病相关真实的数据集,利用组别特异性特征所构建的模型对样本类型预测能力来验证组别特异性特征对不同组别样本的区分能力。实验结果表明,MetaGo不仅能在仿真数据集中准确找到预先设置的具有组别差异性的序列,在真实数据集的分析实验中,MetaGo所识别的组别特异性特征构建的分类器相比对先前的其他研究在分类效果上也是得到了明显的提升。这说明我们所提出方法确实能有效抓住不同组别间的具体差异,这对于进一步理解微生物群落或者其他相似类型的序列具有重要意义。另外,本文进一步提出利用孪生神经网络对k-mer特征重要性的衡量模型,将短k-mer(≤ 10bp)序列作为特征,利用孪生神经网络将一对基因组的k-mer频度向量分别映射到低维空间,通过最小化两个基因组在低维空间中的距离与基因标准ANI值的误差平方和作为loss函数对网络进行训练。我们对28个脊柱类动物的基因组序列进行实验,实验结果显示在系统发生树上相近的物种具有更相似的关键性k-mer特征,这表明提出的模型所量化的k-mer特征重要度能反映基因组的相似关系。
其他文献
挥发性有机化合物(VOCs)对生态环境和人类健康的严重危害已引起全世界关注。化石燃料燃烧,石化,油漆,涂料,农药,塑料等工业过程造成了很大一部分人为挥发性有机化合物的排放
自2008年首次被发现以来,柱[n]芳烃是一类极具发展潜力的大环主体分子。由于柱芳烃易于官能化,结构高度对称,出色的主客体性能而被广泛应用在气体吸附和储存、载药体系、超分
Ginzburg-Landau方程是超导的一个重要模型,被认为是现代物理学中的一个基本方程。确定性的Ginzburg-Landau方程,即没有导数项和随机项,它描述了非平衡流体动力学系统的各种
含铜废水排放源涉及多个行业且年排放量巨大,对生态环境构成了极大的潜在威胁。含铜废水成分复杂多变,应用传统吸附材料进行处理的去除效果将严重下降。此外,传统吸附材料在
目的:1.了解急性缺血性脑卒中(Acute ischemic stroke,AIS)发生后患者外周血中CD3~+、CD4~+、CD8~+T细胞,TNF-α、IL-1β、IL-6细胞因子的变化。2.明确AIS患者不同梗死程度上
磷酸钙骨水泥(CPC)的组成成分与人体骨质的矿物成分有许多相同之处,并且CPC具有良好的骨传导性、生物相容性和生物活性等优点,对其研究和开发成为当今生物材料研究领域中的一个热点。磷酸钙骨水泥所具有的可注射性和任意塑性成型的特点,使其在创伤性骨修复外科手术中拥有广泛的应用前景。其中,磷酸三钙(Ca3(PO4)2、TCP)由于在常温下即可水化形成羟基磷灰石(Ca10(PO4)6(OH)2、HA),已成
鸭坦布苏病毒(Duck Tembusu virus,DTMUV)在感染鸭后可导致鸭生产性能下降,病程后期可引起典型的神经症状,严重情况下可导致发病动物死亡,这给我国养鸭业带来严重的危害,此外,国内外已多次报导坦布苏病毒感染人的事件,这同样给我国公共卫生安全带来一定的挑战。坦布苏病毒粒子包含囊膜,其基因组长度大约为11 kb,只含有一个开放阅读框,该阅读框可编码3种结构蛋白和7种非结构蛋白;此外,在
双轴肩搅拌摩擦焊(简称BT-FSW)是在传统搅拌摩擦焊基础上改进并提出的一种新型焊接方法。BT-FSW的特点在于既能获得质量良好焊接接头,又克服了常规搅拌摩擦焊需要垫板支撑的
随着新能源和便携设备的兴起,企业和消费者急需一种安全,高效,轻便的储能装置。电极材料作为二次电池和超级电容器等常用储能设备的基础,是目前研究的重点。在种类繁多的电极
近年来,碳材料以其极好的化学稳定性、来源广泛、环境友好、易于产业化等特点,在能源储能、分子吸附、催化、污水处理等领域具有广阔的应用前景。在超级电容器领域,碳材料作