基于Hadoop的微阵列数据两阶段并行K近邻基因提取

来源 :计算机工程 | 被引量 : 0次 | 上传用户:linebarrel2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因信息选取工作中由于数据量庞大,传统单线程运行的分类查询方法无法满足实时性与提取精度要求。为此,利用Hadoop框架设计两阶段并行计算模型。其中第1阶段用于候选基因子集并行选取,第2阶段用于并行K近邻基因信息选取,从而实现并行计算的全过程覆盖。为降低算法的计算复杂度,针对基因信息微阵列数据,定义数据筛选指标对其进行采样,在降低数据处理量的同时消除数据冗余。实验结果表明,该算法具有较高的运行效率,并且继承了Hadoop编程模型的可扩展特性,可移植性较强。
其他文献
①混凝土在我扎煤公司的应用空间:基建施工任务量达到空前规模,施工结构混凝土工程量非常大,分析施工中如何保证施工中使用混凝土的强度有着深远的意义。②混凝土强度控制指
针对资源受限项目调度问题,提出了一种面向多资源约束的关键链识别算法。该算法首先基于优先规则的资源受限并行调度算法生成调度结果,接着依据此结果将活动的资源约束转换为
1病例患者女,15岁。发现有眼外斜14年,视物不清8年,于2012年3月就诊。1998年患者1岁时家长发现其右眼外斜,偏头视物,到当地医院就诊,考虑为右眼外斜视,未予处理,建议观察。2004年患者
养育哺乳仔猪的任务是获得最高的成活率和最大断奶窝重及个体重.仔猪出生后所受的应激较大,在胎儿期完全靠母体供给各种营养物质和排出代谢物,母体对胎儿来说是个相对稳定的
鲜食玉米包括甜玉米、糯玉米、黑玉米等。甜玉米有白粒、黑粒、黄粒,含糖10%左右为普通甜玉米,含糖20%以上的为超甜玉米。糯玉米是子粒胚乳淀粉为100%的支链淀粉,煮熟后粘软
针对驱动桥主要焊缝失效形式,介绍了不同焊接结构疲劳耐久性预测方法,并对主S-N曲线法进行重点介绍与推导。基于主S-N曲线法对台架试验工况下的标准搭接试件进行疲劳计算,并
<正> 1917年十月革命后诞生的第一个社会主义国家苏联,在二十世纪90年代初宣告解体,这不仅是1991年,也是一件世纪性的大事。苏联的解体无疑是在苏联内外部各种矛盾和因素相互
自彼得大帝改革以降,历代沙皇就强行且快速引进西方社会发展模式,以期强盛俄国。此举刺激了俄罗斯帝国上流社会励精图治,却给社会下层和知识界以巨大压力,孕育出深沉的"俄罗
国家形象战略的目标既是"对外宣传",也是为了满足"内需"。对一个国家而言,争取国内民众支持、认同与争取国际社会的承认同等重要。良好的国家形象能对国人产生感召力,使国民
我国经济的深入发展,带动了建筑行业的飞速发展,建筑施工的相关技术也得到创新和研发。同时随着我国节能减排经济发展理念的提出,建筑施工项目也充分发挥节能减排的施工技术,