【摘 要】
:
为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究。利用
【机 构】
:
内蒙古科技大学信息工程学院,内蒙古科技大学网络中心
【基金项目】
:
国家自然科学基金项目(61163025);内蒙古自然科学基金项目(2012MS0912);内蒙古教育厅高校科研基金项目(njzy12110)
论文部分内容阅读
为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究。利用MapReduce编程模式,将传统的谱聚类算法进行重新编写;在该平台上用Canopy算法对数据进行预处理,以达到更好的聚类效果。实验结果表明了设计的分布式聚类算法在加速比等方面有良好的性能,并且在数据伸缩率方面效果明显,改进后的算法适合处理海量数据。
其他文献
椰毒假单胞菌在干燥银耳卵黄培养基与新配制银耳卵黄培养基上差别不大、生长菌落较大,菌落周围呈现虹彩环,易于辨认,利于挑选,在产色素上优于新配制的培养基,检出率优于PDA。通过检测
本文概况介绍了21世纪织物的功能整理,包括皮肤护理功能整理,防紫外线整理,防虫,抗菌,防臭整理以及电磁波屏蔽,蓄热保温整理等.
Synaptotagmin是一种膜转运蛋白,参与动物囊泡膜的融合,并接受Ca2+的调控,起Ca2+感受器的作用。Synaptotagmin由多个成员组成,基本结构包括N端跨膜区、胞内链接区和C-末端的
密花柽柳(Tamarix arceuthoides)具有两季开花结实特性,通过对春花期与夏花期种子的形态和萌发特性的比较,结果表明:密花柽柳春花期种子与夏花期种子在形状、大小、颜色上无显著
随着城市规模的快速扩大和轨道交通的高速发展,城市轨道交通市域快线规划、建设和运营问题已经成为特大规模城市研究的热点。然而从各城市的规划和实践情况来看,规划理念和建
在全球化进程不断深入的今天,灾难新闻不仅具有全球化趋势和全球性影响,同时也是网络媒体涉足的重要领域。特别是微博、微信等自媒体平台的兴起与发展,使得受众的视听方式逐
<正>海澜之家(600398):公司发布业绩预增公告,预计公司2015年1-9月实现归属于上市公司股东的净利润与上年同期相比将增加35%到45%。今年9月公司新发布了三大"致+"秋冬单品,包
医院后勤物资的管理是医院医疗活动的基础,如何提高各类物资管理的科学性和合理性,减少浪费和库存占用,优化物资管理流程,加强物资的定额管理等,是医院信息化管理的一个重要
目的为提高学生学习效率,在教学中采用思维导图法,验证其应用于药理学教学方法改革的可行性。方法以两个专业400余名学生为研究对象,实验班和对照班分别采用思维导图法和传统