论文部分内容阅读
宏基因组学(Metagenome)为许多无法在实验室进行单一个体纯化与培养的微生物研究带来了新的方法。读段(reads)组装是宏基因组学研究中非常重要的一步。然而由于受物种丰度,相近物种的同源基因等客观因素影响和测序技术,宏基因组装算法等存在的不足,目前的宏基因读段组装算法通常会生成许多短的重叠群(contigs),这些重叠群往往代表的是短的基因片段。基因预测器等DNA序列注释工具通常难以在短的编码序列上进行有效工作,因而在实际应用中,短的重叠群通常被丢弃,不能被充分利用。针对这个问题以及当前基因片段组装算法无法同时利用来自多种测序技术读段组装结果的情形,本文提出了一个对不同读段组装工具组装不同测序技术读段后生成的重叠群进行融合,然后在融合的重叠群上利用网络比对优化算法对重叠群包含的基因进行标注的新算法。由于不同测序技术具有不同的优势,通过融合其组装结果,不但能为后续的网络比对提供更多的路径选择,更能对单一测序读段组装产生的未组装出来的区域(gaps)进行填补,进而改善基因标注结果。网络比对是将由重叠群构成的图与参考基因序列进行比对,从图中搜索出与参考基因序列最相似的一条路径,因而网络比对能够利用短的重叠群。实验结果表明,该算法有效地利用了不同组装工具生成的长的重叠群。与GeneStitch相比,该算法通过重叠群融合算法和网络比对优化算法标注出更多更长的具有更低误组装率基因序列。针对当前缺乏人性化的基因片段测试工具的问题,设计了一个功能全面的可视化工具。该工具整合了多种流行的生物信息学软件,提供了完善的测试指标,并呈现图形化的测试结果。