【摘 要】
:
在过去的十年里,云计算技术在世界范围内迅速的发展,云计算技术强大的计算能力为海量数据挖掘提供了新的生机,将海量数据挖掘算法迁移到云计算平台具有非常重要的现实意义。H
论文部分内容阅读
在过去的十年里,云计算技术在世界范围内迅速的发展,云计算技术强大的计算能力为海量数据挖掘提供了新的生机,将海量数据挖掘算法迁移到云计算平台具有非常重要的现实意义。Hadoop是目前最为流行的开源云计算平台,它以海量数据处理为核心,本文也以其为平台对数据挖掘算法——K近邻算法进行研究。本文的主要工作有以下两点:(1) K近邻算法思想简单,分类效果良好,但是该算法的分类时间会随着训练样本数的增加以平方级别增大。目前针对这一问题的改进主要从加速搜索速度和压缩训练样本两方面进行。本文从压缩训练样本方面提出了一种基于决策边界的压缩K近邻算法简称为DBCNN。算法以分类边界附近的样本点对分类的贡献率大,而远离分类边界的样本点对分类的贡献率小为理论基础,通过计算训练样本中的样本点在非自身类别的样本集中的K近邻来寻找分类边界附近的样本点,并以此为依据压缩训练样本,从而提高算法的分类效率。实验证明:DBCNN算法能够以尽可能少的分类精度损失来压缩训练样本。(2) DBCNN算法时间复杂度O ( k~2n~2),随着训练样本数的增加,其计算量以平方级别增长,面对海量数据处理时,是DBCNN算法的一个瓶颈。利用Hadoop平台对海量数据处理的优势,本文通过深入分析DBCNN算法的实现环节,证明DBCNN算法的可并行化,根据Hadoop平台的编程模型MapReduce设计并行方案并实现。通过实验证明:数据量越大,随着Hadoop节点数和算法并行度的增加,Hadoop集群相对于单机上的运行效率的相对加速比也就越大。
其他文献
本文论述了电能质量的重要性和对电能质量进行评估的重要意义,分析和比较了基于模糊数学方法、概率统计、物元分析法、人工网络神经、遗传投影寻踪这五种常见的电能质量评估方
随着我国房地产业发展迅猛,在建工程抵押贷款已成为项目开发融资的主要渠道之一,成为房地产开发商融资的主要手段。对于解决房地产开发商开发建设资金不足、加快工程进度等方
通过研究半湿润区不同耕作制度下冬小麦水氮利用特征、土壤细菌多样性和群落结构的变化规律,为优化该地区农田耕作方式,促进土壤有益微生物群构建和提高土壤资源利用率等提供
目的:通过对种植体-骨结合面周围骨形成蛋白(BMP-2)表达变化的观察,探讨新伤续断汤对种植体周围BMP-2生成的影响从而揭示新伤续断汤对种植体周围骨组织再生影响的机理。为其在
齿轮传动的平稳性是齿轮产生噪声的一个关键因素,减少齿轮噪声的有效措施即为提高齿轮运转的平稳性。在传统的检测方法中,一般采用目测接触区和测量运转噪声来检测齿轮传动的
现有的电子式电流互感器的传感头主要采用低截止频率的外积分电路,不能传变行波信号。数据采集电路主要由低速的单片机控制A/D转换只能采集低频信号,因此不能提供行波故障测
排球跨步垫球及以其为基础的各种低姿势垫球是排球比赛过程中使用频率较高的垫球技术动作。本论文采用文献资料法、专家访谈法、实验法、数理统计法、理论分析法等方法,利用
目的:通过心理测试法、投射测试法、行为分级法三种儿童牙科畏惧症的评估方法观察有无心理干预对儿童牙科畏惧症的影响,并比较全程心理干预和部分心理干预对儿童牙科畏惧症治
如今,国内外许多大城市都在大力建设轨道交通,轨道交通由于其大容量等特点,在城市公共交通体系中所扮演的角色越来越重要,然而,无论是常规公交系统还是城市轨道交通,都因为各
山东省昌乐地区 ,东起淮河 ,西至 河间。老农拾起这种蓝黑色的石头 ,用作烟袋上的饰物 ,并借以击石取火 ,被称为“乌金火石”。1 986年秋 ,地质科技人员在找矿过程中 ,发现