论文部分内容阅读
近年来,测序技术高速发展推动了基因序列的各项研究。高通量测序具有通量高、时间短的优点,但是输出的序列长度较短,无法为科学家提供足够长的序列用于后续分析研究,因此需要通过拼接工具对测序所得短序列进行拼接。基于高通量测序数据的宏基因组拼接算法是宏基因组学的核心研究方向之一,现有的拼接方法层出不穷,但一般的拼接工具消耗时间长占用内存大,覆盖率不够高。本课题为将对这些问题进行改善,对宏基因组拼接问题进行深入的研究。本研究的工作是在MEGAHIT拼接工具基础上加入新的方法来提高拼接的结果。对MEGAHIT进行多次试验,对实验结果进行深入的研究并寻找改进的方向。利用Succinct de Bruijn图占用内存小,访问时间快的优点,使用所给的测序基因片段数据完成对图的初步构建。结合基因序列特征来分析图中的结构,根据每个结构的特征及造成此结构的因素,对图的分支结构进行化简。构建随机森林模型,利用单端数据对contigs的末端进行进一步的扩展,根据基因序列的信息提取共性的特征,使用提取的特征进行机器学习模型的训练与建立,可将此模型直接用在其他数据集的拼接上,不需要在每次拼接前重新训练模型,通过此步骤解决部分分叉结构由于覆盖率低导致缺失kmer而无法选择分支路径的问题。在拼接的最后一次迭代中,对图进行划分与合并,将属于同一物种的基因片段划分在同一子图中,利用子图信息输出一致性的contigs序列,解决相似度极高的属于同一物种的基因序列导致contigs没有继续扩展的问题。在实验部分,使用有参考基因序列的模拟数据进行实验,使用Meta Sim模拟丰度极不均一和丰度均一的数据集。基于以上两种数据集,按照拼接工具的评价标准同现有的拼接工具做比较。使用真实数据进行实验,由于真实数据没有参考基因序列,本研究只列出统计的拼接结果,没有准确度等评价的说明。通过对实验结果的分析论证本研究的算法的确取得了更好的效果。