基于Spark肾细胞癌差异表达基因筛选算法SAM的并行化实现研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:RSH1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全世界范围内,肾细胞癌是最常见的肿瘤之一。研究者们虽然对肾细胞癌致病原理和治疗方法进行了深入的研究,但是还没有找出疾病具体的发病原因和有效的治疗方法。随着科学家们对人类基因进行深入的研究,根据已有样本,筛选出与疾病相关的差异表达基因已经成为了目前基因学、医学的研究重点。从基因的角度,对于攻克疾病有着重大的意义。DNA芯片技术是目前对于基因进行研究的主要应用技术,研究者们可以通过使用该技术筛选出与疾病相关的差异表达基因。2001年,Virginia Tusher、Robert Tibshirani等人提出了SAM算法。SAM算法在既保证了可以筛选出较多的差异表达基因的同时又可以使得FDR保持在一个相对较低的水平。目前,随着大数据时代的来临,大数据分析技术Spark就此诞生。Spark技术采用了基于内存的计算方式,去除了计算过程中读取磁盘的操作,提供了快速的针对大数据处理的工具RDD,可以进行复杂的批处理、并行化计算,提高了运算速度,是目前对大数据分析的主要技术,并能够快速、高效的对大数据进行筛选分析。随着对人类基因的深入研究,研究者得到了大量基因表达数据,这就使得传统的单机模式串行化计算效率无法满足研究者的需求。为了提高数据挖掘的效率,本文是应用肾细胞癌的基因表达谱数据,将其与Spark技术相结合,使用SAM算法进行并行化计算,可以快速、高效的筛选出差异表达基因。采用Spark技术,其目的在于提高了筛选差异表达基因的效率,这对于深入研究疾病的致病原理、治疗方法有着重大的意义。本文的研究过程首先是由GEO数据库下载得到肾细胞癌原始数据,包括实验组和对照组两组数据,将该数据进行预处理,得到实验所需的基因表达谱数据。进一步的工作是利用目前最前沿的大数据分析计算平台Spark技术,应用肾细胞癌相关的基因表达谱数据实现SAM算法并行化。其方法是应用VMware虚拟机搭建Linux系统下的Spark集群,利用Spark自身所提供的Spark-Shell进行交互式分析计算,筛选出差异表达基因并得到运行时间。之后使用R语言进行单机模式下SAM算法串行的对比实验。将Spark并行化实验的结果与R语言实验的结果进行对比分析,并得出SAM算法效率的提高比。最后基于对SAM算法的研究过程,实现SAM算法并行化系统,包括SAM算法的介绍、原始数据介绍、筛选出的差异表达基因的结果和SAM可视化图像。为想要了解SAM算法的研究者提供帮助,并供研究者利用差异表达基因进行下一步的分析和实验。实验共筛选得出与肾细胞癌相关的差异表达基因1224个,其中540个上调基因,684个下调基因,并行化运行时间为6237ms。本文使用R语言进行了串行化对比实验,共筛选出1181个差异表达基因,其中570个上调基因,611个下调基因,串行化运行时间为64043ms。相比于串行化实验,将SAM算法并行化,算法效率提高了10倍以上。搭建真实集群,利用肾细胞癌基因表达谱数据实现SAM算法的并行化筛选出相关的差异表达基因,与串行化实验和虚拟机集群实验相对比,得出算法提高效率是进一步研究的重点。
其他文献
本文提出一种设置不同材料基础垫层来减少建筑物差异沉降的方法,即在沉降小的区域设置易压缩材料垫层,以减小地基接触应力,在该区域欲增大其沉降量的部位下设置不易压缩材料
首先讨论了近断层地震动的脉冲运动特征和特性参数,并以台湾集集地震实际脉冲型近震记录作为地震动输入,以上部结构最大层间位移和构件体积最小化为目标,应用含潜在约束策略
基于大数据的精准医疗是新的医学概念与医疗模式,目的在于整合基因组学和其他分子信息,实现治疗效果最大化和副作用最小化,从而为患者提供更加个体化的治疗服务。神经系统疾
恶性淋巴瘤是起源于淋巴造血系统的恶性肿瘤,主要表现为无痛性淋巴结肿大,肝脾肿大,全身各组织器官均可受累,伴发热、盗汗、消瘦、瘙痒等全身症状。嗜血细胞综合征是血液中的
近年来,随着我国社会经济的飞速发展和,机械设备安装工程施工技术水平也有了很大程度的提升,并在当前工程项目建设过程中广泛应用开来。目前来看,机械设备安装工程施工技术逐
日前,根据我国输配电发展现状,存在一定的问题,而用电是为国民经济发展的重大问题,不仅民用,工业用电量也是一个不小的数目,因此发电、输配电、用电设备的产业是我国要加强发
在脊髓损伤患者的康复过程中出现的众多并发症中,神经源性膀胱导致的排尿障碍是最常见而且也是比较棘手的一个难题,根据脊髓损伤所处的不同阶段实施护理干预,对膀胱功能的恢
僵人综合征是运动沖经的连续性放电,可能为脊髓或脊神经根的病变所引起。病因不明。成年患病,男性较多。可由运动所激发,先感胸背发紧、疼痛,随后肩胛带、骨盆带和大腿肌肉
血液透析主要是利用弥散对流作用来清除血液中的毒性物质,是尿毒症、急慢性肾衰竭等常用重要治疗手段之一;也是常用的血液净化方法之一。血液透析前需用生理盐水及肝素水对各
在目前组织学习的研究和实践中,人们往往忽视了一种极其重要的学习形式——组织内部的正常有效沟通。大学作为高级知识分子的云集之地,原本应是内部沟通最充分、沟通的作用得到