论文部分内容阅读
DNA测序是生物信息学的一项重要内容。从一代测序到二代测序,测序技术历经了方法和效率的巨大改变。在二代测序中,一次测序就可以获得GB级别的大规模测序数据。高通量测序产生的海量RNA-seq对数据分析技术提出了更高的要求。在分析RNA-seq数据的流程中,读段定位是分析RNA-seq数据的第一步,也是最重要的一步;读段定位直接影响着下游一系列数据分析的结果;已有大数据分析和计算技术为读段定位在运行时间和定位灵敏度上进一步提升提供了可能。以Hadoop为计算平台,本文开展了以下三个方面的研究工作:RNA-seq读段定位算法的研究;RNA-seq可变剪接识别算法的研究;RNA-seq数据分析结果的可视化。Hadoop作为大数据分析的主流计算平台,其计算特点可用来分析RNA-seq数据,本文设计了一个基于Hadoop的RNA-seq读段定位算法,以期提高读段定位过程运行效率,并使用种子扩展算法保证定位的灵敏度。算法主要学习了SeqMap的空位种子索引算法和mrFAST/mrsFAST的FastHASH方法,同时本文提出一个新的使种子定位到参考序列上的方法,新方法利用种子会连续定位的特点对定位规则做出了改变。实验证明:与传统读段定位工具相比,本文的基于Hadoop的读段定位算法不但可以在提升时间效率的同时,还可以保证读段定位过程的灵敏度。可变剪接是读段定位的下游的分析工作之一,对于以RNA-seq数据作为输入的可变剪接识别工具,往往需要依赖读段定位的结果才能进行可变剪接的识别分析,并且这些可变剪接识别工具需要依赖多个工具的支持以及注释文件才能进行识别,安装使用过程比较繁琐,能在并行环境下工作的可变剪接工具也较少,所以本文在读段定位的基础上设计了基于Hadoop的RNA-seq可变剪接识别算法,算法是根据工具SpliceMap和Tophat的思想设计而成,并提出一个新的跨越剪接位点的读段定位方法,新方法利用GT-AG剪切信号与读段种子间的规律辨别出剪接位点,进而实现跨越剪接位点的读段定位。实验证明:与ASTD可变剪接数据库相比,本文提出的基于Hadoop的RNA-seq可变剪接识别算法识别准确率可以达到50%以上,具有一定的实际应用价值。此外,基于本文算法开发的可变剪接识别工具具有使用过程简单,不依赖注释文件的优势。为了更加直观地展示可变剪接的识别结果,本文利用Servlet和Tomcat技术实现了可变剪接识别结果的可视化,可变剪接的识别结果可直接以网页的形式展示,参考序列上可变剪接发生的具体位置可以清晰显示,一目了然。读段定位的实验中,在2G以上的数据条件下,本文的读段定位算法的时间效率经过与Bowtie对比,可以提高将近40%,并且能识别出更多的读段,证明了基于Hadoop的读段定位算法可以提高时间效率并保证灵敏度。可变剪接实验中,本文算法通过与标准数据库对比,可以识别出参考序列五个可变剪接事件中的四个,准确率达到50%以上,可以证明本算法具有一定的实际应用价值。