宏基因组读段组装融合与基因标注算法研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:yufengdong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
宏基因组学(Metagenome)为许多无法在实验室进行单一个体纯化与培养的微生物研究带来了新的方法。读段(reads)组装是宏基因组学研究中非常重要的一步。然而由于受物种丰度,相近物种的同源基因等客观因素影响和测序技术,宏基因组装算法等存在的不足,目前的宏基因读段组装算法通常会生成许多短的重叠群(contigs),这些重叠群往往代表的是短的基因片段。基因预测器等DNA序列注释工具通常难以在短的编码序列上进行有效工作,因而在实际应用中,短的重叠群通常被丢弃,不能被充分利用。针对这个问题以及当前基因片段组装算法无法同时利用来自多种测序技术读段组装结果的情形,本文提出了一个对不同读段组装工具组装不同测序技术读段后生成的重叠群进行融合,然后在融合的重叠群上利用网络比对优化算法对重叠群包含的基因进行标注的新算法。由于不同测序技术具有不同的优势,通过融合其组装结果,不但能为后续的网络比对提供更多的路径选择,更能对单一测序读段组装产生的未组装出来的区域(gaps)进行填补,进而改善基因标注结果。网络比对是将由重叠群构成的图与参考基因序列进行比对,从图中搜索出与参考基因序列最相似的一条路径,因而网络比对能够利用短的重叠群。实验结果表明,该算法有效地利用了不同组装工具生成的长的重叠群。与GeneStitch相比,该算法通过重叠群融合算法和网络比对优化算法标注出更多更长的具有更低误组装率基因序列。针对当前缺乏人性化的基因片段测试工具的问题,设计了一个功能全面的可视化工具。该工具整合了多种流行的生物信息学软件,提供了完善的测试指标,并呈现图形化的测试结果。
其他文献
本文从经济发展的视角来界定会计信息的真实性,把会计信息失真分为客观性失真和主观性失真。由此,分别对会计信息客观性失真和主观性失真的原因进行对比分析,并进行探询相关
追求教育公平公正是义务教育的根本宗旨,义务教育阶段教师资源的合理化配置直接影响到整个义务教育的均衡发展。义务教育阶段教师资源配置不合理有多方面原因。从教育政策引
"十三五"时期是全面建成小康社会决胜阶段,精准扶贫是关键一招。精准扶贫是粗放扶贫的对称。是指针对不同贫困区域环境、不同贫困农户状况,运用科学有效程序对扶贫对象实施精
随着我国经济的飞速发展,人们的生活已经不止满足于日常的衣食住行的事情,更希望得到精神上的满足,所以越来越多的人对旅游情有独钟,近几年海外旅游市场发展迅速。而旅游本身
<正>刘益谦和王薇是中国收藏圈的传奇人物,作为资本大鳄和亿元拍品的持有者,他们开始创办私立美术馆。在众多民营美术馆试水失败的背景下,他们是否能创造新的可能性,一切都不
胡锦涛总书记对学习杨善洲同志先进事迹作出重要批示,中组部、中宣部、中央创先争优活动领导小组印发了《关于认真学习贯彻胡锦涛同志重要批示精神广泛开展向杨善洲同志学习活
报纸
著名教育专家叶澜教授说:"课堂教学是师生人生中的一段重要的生命经历,是他们生命的有意义的构成部分。"新课程理念呼唤把课堂还给学生,让课堂充满生命活力。因此,在课堂教学
<正>在今天,以计算机技术和网络技术为基础的信息技术已经渗透到社会的各个领域,教育信息化已是大势所趋。信息网络技术与物理学科教学的整合可以培养学生良好的信息素养,为
介绍了有关高固含量醋酸乙烯乳液聚合的制备方法,并阐述制备高固含量PVAc乳液的影响因素。