论文部分内容阅读
基因编辑技术在基因功能研究、物种性状改良和疾病研究中具有非常重要的作用,成为当下的研究热点。CRISPR系统是目前最具发展潜力的基因编辑工具,但由于其存在脱靶效应,可能会导致不确定位置的DNA片段遭到破坏。提前对全基因组范围内存在的脱靶位点进行预测来实现风险规避,对安全有效的CRISPR系统的设计与应用具有非常重要的指导意义。目前已有的CRISPR系统脱靶位点预测算法的运行效率都不是很高,在全基因组范围对脱靶位点进行预测十分耗时。本文提出了一种新的脱靶位点预测算法Spark-OFFinder,该算法将FM-index算法应用到了脱靶位点预测当中,通过使用Spark分布式计算框架,使之能在Spark集群当中并发运行。本文对参考基因组序列生成FM-index索引文件,并对索引文件的内容进行压缩处理,使其能够完全加载到内存当中,提升读取效率。Spark-OFFinder设计了一种基于FM-index算法的部分模糊匹配算法,能在参考基因组序列中搜索CRISPR系统的脱靶位点,并通过一定的优化措施来缩小搜索空间,以提升算法的运行效率。本文还使用MapReduce编程模型将该算法并行化处理,并基于Spark分布式计算框架实现该并行算法,使其能在Spark集群当中分布式运行,进一步提升运行效率。最后,本文将Spark-OFFinder与目前应用广泛的脱靶位点预测工具Cas-OFFinder进行对比,Spark-OFFinder的运行结果完全正确。在单机环境下,Spark-OFFinder的运行速度相较于Cas-OFFinder有很大的提升。在集群环境中,本文使用控制变量法测试了两者受参考基因组序列长度、sgRNA序列数量和最大允许错配数的影响。测试结果表明,在本文测试所使用的集群环境中,Spark-OFFinder在不同输入条件下的运行速度较Cas-OFFinder均能有非常大的提升,在某些输入条件下能达到百倍甚至千倍的提升。此外,Spark-OFFinder在参考基因组序列长度较长、sgRNA序列数量多以及最大允许错配数较小时更能发挥其运行速度上的优势。并且该算法具有比较好的拓展性,能随集群规模的扩大稳步提升运行速度。