面向宏基因组数据的拼接算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cucumber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,测序技术高速发展推动了基因序列的各项研究。高通量测序具有通量高、时间短的优点,但是输出的序列长度较短,无法为科学家提供足够长的序列用于后续分析研究,因此需要通过拼接工具对测序所得短序列进行拼接。基于高通量测序数据的宏基因组拼接算法是宏基因组学的核心研究方向之一,现有的拼接方法层出不穷,但一般的拼接工具消耗时间长占用内存大,覆盖率不够高。本课题为将对这些问题进行改善,对宏基因组拼接问题进行深入的研究。本研究的工作是在MEGAHIT拼接工具基础上加入新的方法来提高拼接的结果。对MEGAHIT进行多次试验,对实验结果进行深入的研究并寻找改进的方向。利用Succinct de Bruijn图占用内存小,访问时间快的优点,使用所给的测序基因片段数据完成对图的初步构建。结合基因序列特征来分析图中的结构,根据每个结构的特征及造成此结构的因素,对图的分支结构进行化简。构建随机森林模型,利用单端数据对contigs的末端进行进一步的扩展,根据基因序列的信息提取共性的特征,使用提取的特征进行机器学习模型的训练与建立,可将此模型直接用在其他数据集的拼接上,不需要在每次拼接前重新训练模型,通过此步骤解决部分分叉结构由于覆盖率低导致缺失kmer而无法选择分支路径的问题。在拼接的最后一次迭代中,对图进行划分与合并,将属于同一物种的基因片段划分在同一子图中,利用子图信息输出一致性的contigs序列,解决相似度极高的属于同一物种的基因序列导致contigs没有继续扩展的问题。在实验部分,使用有参考基因序列的模拟数据进行实验,使用Meta Sim模拟丰度极不均一和丰度均一的数据集。基于以上两种数据集,按照拼接工具的评价标准同现有的拼接工具做比较。使用真实数据进行实验,由于真实数据没有参考基因序列,本研究只列出统计的拼接结果,没有准确度等评价的说明。通过对实验结果的分析论证本研究的算法的确取得了更好的效果。
其他文献
约束满足问题是人工智能领域重要的研究方向之一,主要用于求解实际问题和学术问题。约束满足问题技术解决问题的主要思想是:首先将待求解问题抽象成一个约束网络模型,然后利
快速、准确的实时监测是保证工业过程正常、安全运行的关键。主元分析(PCA)是多元统计过程监测中最有代表性的方法之一。然而,标准的主元分析假设过程是线性的、平稳的,在应
远程计算机监测系统是在远端计算机知道并允许的情况下对其进行远程监测。它被广泛的应用于办公、教育等领域,具有很好的现实意义;同时它需要综合运用信息传输技术、网络学、
杨刚是民国时期一名出色的记者,在我国新闻事业中占有重要的地位,她与彭子冈、浦熙修、戈扬并称为中国新闻界“四大名旦”,与彭子冈、浦熙修并称为民国时期新闻界“三剑客”
这些年以来,因人们的乱砍滥伐、工业废气/汽车尾气的大量排放等原因而越来越严重的温室效应、更大的臭氧层空洞,时而发生的矿难事故,家居装修及食品安全检验不合格等因素严重
伴随着我国市场经济的迅猛发展,休闲旅游成为人民日常生活的普遍选择之一。近年来,泉州市的休闲农业的发展前景迎来春天,休闲农业不单对于泉州农村地区在经济方面起到振兴的
基于模型诊断问题是NP难度的问题,在人工智能领域内有着十分重要的地位。同时,在工程医学、经济、航天等领域内,基于模型诊断问题也有着重要的应用。在早期提出基于模型诊断
空气压膜效应触觉反馈技术能够使人在普通触摸屏上感受到被显示物体的形状、纹理以及柔软性,实现自然逼真的触觉再现,一直是人机交互领域的研究热点之一,在多媒体终端实现触
云计算作为新型计算模式,其强调资源租用、应用托管等。云存储是云计算提供的一种常见服务。在云存储中,用户通过租用云端的存储资源来保存自己的数据,之后就可以随时随地通
随着生活需求趋于多元,学习成本不断提高,语言学习者希望通过一种高效的学习方式,以便在较短的时间内掌握一门语言。认知语言学理论表明“人是通过认知和理解才学会并运用语