论文部分内容阅读
碱基序列作为生物遗传信息的主要载体,已经成为人们研究物种遗传性状的重要桥梁。通过对基因组的研究,不仅可以获取基因组的功能信息,如调控、遗传变异等,还可以阐明不同物种在进化水平上的关系。通过对宏基因组的研究,可以揭秘微生物群落的物种多样性及功能多样性,进而探寻微生物群落与环境、宿主等之间的关系。碱基序列的比较对基因组、宏基因组的研究十分重要。随着高通量测序技术的发展,测序数据更加精准、全面,但是也带来数据量庞大、信息碎片化等问题。如何基于高通量测序数据对基因组、宏基因序列进行比较成为重要的研究课题。传统的序列比较方法将测序得到的读段(reads)配准到参考基因库中获取相关的物种信息或者将reads拼接成长序列(contig)再进一步分析,但是这种方法不仅受到参考基因库的限制,而且在拼接及比对的过程中会带来大量的时间消耗。因此,本文针对来自不同组别(如健康人和病人)的测序样本集的比较提出基于k-mer频度,免于配准、免于拼接的组别特异性序列识别方法,另外针对基因组比较提出免于配准、免于拼接的基因组关系的衡量方法并量化各个k-mer对刻画基因组关系的重要性。本文提出MetaGO模型,将长k-mer(≥ 30bp)序列作为特征,将在一组样本中出现且在另一组样本中不出现或者在两组样本间存在丰度差异的特征称为组别特异性特征,并在此基础上构建组别特异性特征识别模型。为了提高计算效率,我们将MetaGo部署在Apache Spark上以实现并行计算。本文将MetaGo应用于一个仿真数据集以及三个与疾病相关真实的数据集,利用组别特异性特征所构建的模型对样本类型预测能力来验证组别特异性特征对不同组别样本的区分能力。实验结果表明,MetaGo不仅能在仿真数据集中准确找到预先设置的具有组别差异性的序列,在真实数据集的分析实验中,MetaGo所识别的组别特异性特征构建的分类器相比对先前的其他研究在分类效果上也是得到了明显的提升。这说明我们所提出方法确实能有效抓住不同组别间的具体差异,这对于进一步理解微生物群落或者其他相似类型的序列具有重要意义。另外,本文进一步提出利用孪生神经网络对k-mer特征重要性的衡量模型,将短k-mer(≤ 10bp)序列作为特征,利用孪生神经网络将一对基因组的k-mer频度向量分别映射到低维空间,通过最小化两个基因组在低维空间中的距离与基因标准ANI值的误差平方和作为loss函数对网络进行训练。我们对28个脊柱类动物的基因组序列进行实验,实验结果显示在系统发生树上相近的物种具有更相似的关键性k-mer特征,这表明提出的模型所量化的k-mer特征重要度能反映基因组的相似关系。