论文部分内容阅读
在全世界范围内,肾细胞癌是最常见的肿瘤之一。研究者们虽然对肾细胞癌致病原理和治疗方法进行了深入的研究,但是还没有找出疾病具体的发病原因和有效的治疗方法。随着科学家们对人类基因进行深入的研究,根据已有样本,筛选出与疾病相关的差异表达基因已经成为了目前基因学、医学的研究重点。从基因的角度,对于攻克疾病有着重大的意义。DNA芯片技术是目前对于基因进行研究的主要应用技术,研究者们可以通过使用该技术筛选出与疾病相关的差异表达基因。2001年,Virginia Tusher、Robert Tibshirani等人提出了SAM算法。SAM算法在既保证了可以筛选出较多的差异表达基因的同时又可以使得FDR保持在一个相对较低的水平。目前,随着大数据时代的来临,大数据分析技术Spark就此诞生。Spark技术采用了基于内存的计算方式,去除了计算过程中读取磁盘的操作,提供了快速的针对大数据处理的工具RDD,可以进行复杂的批处理、并行化计算,提高了运算速度,是目前对大数据分析的主要技术,并能够快速、高效的对大数据进行筛选分析。随着对人类基因的深入研究,研究者得到了大量基因表达数据,这就使得传统的单机模式串行化计算效率无法满足研究者的需求。为了提高数据挖掘的效率,本文是应用肾细胞癌的基因表达谱数据,将其与Spark技术相结合,使用SAM算法进行并行化计算,可以快速、高效的筛选出差异表达基因。采用Spark技术,其目的在于提高了筛选差异表达基因的效率,这对于深入研究疾病的致病原理、治疗方法有着重大的意义。本文的研究过程首先是由GEO数据库下载得到肾细胞癌原始数据,包括实验组和对照组两组数据,将该数据进行预处理,得到实验所需的基因表达谱数据。进一步的工作是利用目前最前沿的大数据分析计算平台Spark技术,应用肾细胞癌相关的基因表达谱数据实现SAM算法并行化。其方法是应用VMware虚拟机搭建Linux系统下的Spark集群,利用Spark自身所提供的Spark-Shell进行交互式分析计算,筛选出差异表达基因并得到运行时间。之后使用R语言进行单机模式下SAM算法串行的对比实验。将Spark并行化实验的结果与R语言实验的结果进行对比分析,并得出SAM算法效率的提高比。最后基于对SAM算法的研究过程,实现SAM算法并行化系统,包括SAM算法的介绍、原始数据介绍、筛选出的差异表达基因的结果和SAM可视化图像。为想要了解SAM算法的研究者提供帮助,并供研究者利用差异表达基因进行下一步的分析和实验。实验共筛选得出与肾细胞癌相关的差异表达基因1224个,其中540个上调基因,684个下调基因,并行化运行时间为6237ms。本文使用R语言进行了串行化对比实验,共筛选出1181个差异表达基因,其中570个上调基因,611个下调基因,串行化运行时间为64043ms。相比于串行化实验,将SAM算法并行化,算法效率提高了10倍以上。搭建真实集群,利用肾细胞癌基因表达谱数据实现SAM算法的并行化筛选出相关的差异表达基因,与串行化实验和虚拟机集群实验相对比,得出算法提高效率是进一步研究的重点。