基于Hadoop的RNA-seq分析系统的设计与实现

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:uestchujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA测序是生物信息学的一项重要内容。从一代测序到二代测序,测序技术历经了方法和效率的巨大改变。在二代测序中,一次测序就可以获得GB级别的大规模测序数据。高通量测序产生的海量RNA-seq对数据分析技术提出了更高的要求。在分析RNA-seq数据的流程中,读段定位是分析RNA-seq数据的第一步,也是最重要的一步;读段定位直接影响着下游一系列数据分析的结果;已有大数据分析和计算技术为读段定位在运行时间和定位灵敏度上进一步提升提供了可能。以Hadoop为计算平台,本文开展了以下三个方面的研究工作:RNA-seq读段定位算法的研究;RNA-seq可变剪接识别算法的研究;RNA-seq数据分析结果的可视化。Hadoop作为大数据分析的主流计算平台,其计算特点可用来分析RNA-seq数据,本文设计了一个基于Hadoop的RNA-seq读段定位算法,以期提高读段定位过程运行效率,并使用种子扩展算法保证定位的灵敏度。算法主要学习了SeqMap的空位种子索引算法和mrFAST/mrsFAST的FastHASH方法,同时本文提出一个新的使种子定位到参考序列上的方法,新方法利用种子会连续定位的特点对定位规则做出了改变。实验证明:与传统读段定位工具相比,本文的基于Hadoop的读段定位算法不但可以在提升时间效率的同时,还可以保证读段定位过程的灵敏度。可变剪接是读段定位的下游的分析工作之一,对于以RNA-seq数据作为输入的可变剪接识别工具,往往需要依赖读段定位的结果才能进行可变剪接的识别分析,并且这些可变剪接识别工具需要依赖多个工具的支持以及注释文件才能进行识别,安装使用过程比较繁琐,能在并行环境下工作的可变剪接工具也较少,所以本文在读段定位的基础上设计了基于Hadoop的RNA-seq可变剪接识别算法,算法是根据工具SpliceMap和Tophat的思想设计而成,并提出一个新的跨越剪接位点的读段定位方法,新方法利用GT-AG剪切信号与读段种子间的规律辨别出剪接位点,进而实现跨越剪接位点的读段定位。实验证明:与ASTD可变剪接数据库相比,本文提出的基于Hadoop的RNA-seq可变剪接识别算法识别准确率可以达到50%以上,具有一定的实际应用价值。此外,基于本文算法开发的可变剪接识别工具具有使用过程简单,不依赖注释文件的优势。为了更加直观地展示可变剪接的识别结果,本文利用Servlet和Tomcat技术实现了可变剪接识别结果的可视化,可变剪接的识别结果可直接以网页的形式展示,参考序列上可变剪接发生的具体位置可以清晰显示,一目了然。读段定位的实验中,在2G以上的数据条件下,本文的读段定位算法的时间效率经过与Bowtie对比,可以提高将近40%,并且能识别出更多的读段,证明了基于Hadoop的读段定位算法可以提高时间效率并保证灵敏度。可变剪接实验中,本文算法通过与标准数据库对比,可以识别出参考序列五个可变剪接事件中的四个,准确率达到50%以上,可以证明本算法具有一定的实际应用价值。
其他文献
在高等真核生物基因组转录过程中,一次剪接可完成短内含子的去除,而较长内含子(>10 kb)则需通过多次剪接方可去除。多次剪接去除长内含子的过程通常被称为递归性剪接。已有研
目的:探讨乳房穴位按摩的乳房疏通效果。方法:随机选取2014年6月—2014年12月温州市人民医院分娩的400例初产妇,分为观察组和对照组,对照组采用常规护理,观察组在对照组的基
根据我国JB 5332—91《额定电压3.6/6kV及以下电动潜油泵电缆》和CB/T16750—1997《潜油电泵机组》中有关潜油电缆的技术条件、性能指标的规定,与美国IEEE1018—1997中规定的
19世纪初叶的法国人民受启蒙主义思想影响,既对现实不满而又充满幻想和希望,要求“自由、平等、博爱”的呼声日益高涨,浪漫主义画派应运而生,并在1830年法国七月革命时达到了顶峰
柯萨奇病毒A组16型(Coxackievirustype A 16,CA16)是肠道病毒属小RNA病毒科的一员,CA16与肠道病毒71型(Enterovirus 71,EV71)是引起手足口病(Hand Foot and Mouth Disease,HF
针对尚未完全解决的 SVM理论中求核函数的问题 ,首先证明了 Vapnik的基于核函数的 SVM机与三层前向神经网络的等价性 ;其次以作者提出的神经网络的覆盖算法为工具 ,证明了如
建立一种高效液相色谱测定赤藓糖醇的方法,以百令胶囊为样品比较了热水提取和超声醇提方法,确定样品在KQ-600B超声波清洗仪、样品和95%乙醇的料液比1∶25(v/w)、180min条件下
由于信息技术的飞速发展,作为信息传播的重要媒介互联网在很大程度上影响了也改变了当代中学生接受信息的途径,丰富了信息内容。当代中学生接收信息的途径越来越多样化,接收
目的观察原发性急性闭角型青光眼三种手术方式的临床疗效及并发症,探讨手术适应证的选择。方法回顾性分析我院收治的原发性急性闭角型青光眼患者192例(200只眼),分别行小梁切
国际肾脏病学界提出用"急性肾损伤(acute kindey injury,AKI)"取代"急性肾衰竭(acute renal failure,ARF)"的概念,目的是要使诊断提前,及早给予干预,减少患者的病死率及并发