大数据环境下并行密度聚类算法的研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:tjn000800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,各行各业都面临着处理海量数据的压力,如何快速且有效的从海量数据中挖掘出有用的价值和信息成为当下的研究热点。作为一种无监督的数据挖掘算法,密度聚类算法的提出使人们能依靠事物自身的相关特征来挖掘出事物之间潜在的分布联系,然而在大数据环境下,传统的密度聚类模型和方法也受到了极大的挑战。随着MapReduce等分布式框架的提出和广泛应用,基于分布式计算架构的并行密度算法逐渐成为研究的主要方向,尤其是目前在时效性和准确性方面上的并行密度聚类算法研究不仅对大数据的快速处理和实时挖掘具有重要意义,而且为各行各业的人们做出精准判断和决策支持提供重要保障。目前,大数据下的并行密度聚类算法虽然取得了一定的成效,但由于在并行过程中对数据的分区与局部簇的合并缺乏合理性且计算效率较低,再加上目前密度聚类算法自身的局限性,因此现有的大数据下的密度聚类在并行效率和聚类结果准确率上普遍不高。针对这些问题,本文在提升并行密度聚类挖掘算法的性能上主要从三个方面入手,一是根据数据点的空间分布状况,设计自适应的数据划分策略来提升数据分区的合理性。二是利用快速索引存储结构设计并优化算法在不同阶段的MapReduce并行策略。三是利用加权网格来加强数据分区的关联性,以及利用群智能优化算法的优势来解决聚类算法的参数选取敏感问题,以此来提升算法的聚类效果。针对大数据下基于密度的聚类算法中存在的数据划分不合理,聚类结果准确度不高以及并行化效率较低等问题,提出了一种基于MapReduce和加权网格信息熵的并行密度聚类算法DBWGIE-MR。该算法首先提出自适应网格划分策略ADG来划分网格单元;其次根据数据点以及数据分区之间的关联性,提出邻居网格扩展策略NE用于构建每个数据分区的加权网格,以此提高聚类效果;同时提出加权网格信息熵策略WGIE来计算网格密度以及密度聚类算法的?邻域和核心对象,使密度聚类算法更适用于加权网格;接着结合MapReduce计算模型,提出并行计算局部簇算法COMCORE-MR,从而加快获取局部簇;最后提出了基于并查集的并行合并局部簇算法MECORE-MR,用于加快合并局部簇的收敛速度,提升了基于密度的聚类算法对局部簇合并的效率。实验表明,DBWGIE-MR算法的聚类效果更佳,且在较大规模的数据集下算法的并行化性能更好。针对大数据下并行密度聚类算法中存在的数据划分不合理、参数寻优能力不佳、并行性能较低等问题,提出一种基于KD树和IFOA的并行密度聚类算法MR-DBIFOA。首先,该算法提出基于KD树的网格划分策略KDG来自动划分数据网格;其次在局部聚类中,设计基于自适应搜索策略KLSS和聚类判定函数CCF的果蝇群优化算法IFOA;然后根据IFOA算法进行局部聚类中最优参数的动态寻优,从而使局部聚类的聚类效果得到提升;同时结合MapReduce模型提出局部聚类算法DBIFOA;最后提出了基于QR-Tree的并行合并局部簇算法MR-QRMEC,实现局部簇的并行合并,使算法整体的并行性能得到加强。实验表明,MR-DBIFOA算法在大数据下的并行效率更高,且聚类效果更好。
其他文献
随着计算机技术的高速发展,电路系统所占的比例越来越大。在数模混合电路中的大部分故障来源于模拟电路部分。模拟电路由于其连续性,非线性及元件参数的容差性等特点,使得诊断过程十分复杂。通常大家所认为的故障是永久故障,其实还有更为特殊的瞬时故障和间歇故障,其中瞬时故障和间歇故障的表现非常类似,因此它们之间没有严格的区别。在此,可以将两者统称为间歇故障。恶劣的工作条件会导致模拟电路间歇故障经常发生,间歇故障
土壤碳循环是土壤生态系统元素循环的核心,也是土壤氮、硫、磷循环的驱动因子。研究森林植被的改变引起的土壤微生物的改变,微生物又会改变地下土壤中的元素循环,对全球环境治理有重要意义。竹子因具有较高的经济价值,据不完全统计,我国竹林的面积增长速度非常快,可达到每年3%左右的速度,扩张的面积达五万公顷之多,对周边森林的生态系统造成的严重影响,同时竹林扩张作为植物入侵的一种特殊现象,被国内学者关注。本研究试
随着信息技术的快速发展,大量数据得以产生并积累,数据也越来越呈现出数量巨大、结构复杂、类型众多、富有价值等特点。在数据中发现有用的知识,挖掘出有价值的信息一直是传统数据挖掘技术的主要工作。其中,致力于分析和发现项与项之间的关联规则技术是数据挖掘中非常重要的一个分支。面对海量数据,单纯的通过提升计算机硬件水平已经不能满足人们对大数据分析与处理的需求,因此并行化技术受到越来越多的重视和研究。通过改进传
随着国民经济的快速发展,我国私家车保有量逐年上升,随之而来的交通拥堵问题越来越严重。因此需要建立完善的交通管理政策,运用智能交通系统对交通资源进行合理的调配。通过预测交通运行状态为交通管理部门提供信息,同时为公众的出行提供便利。论文主要围绕交通运行状态的判别与预测进行研究,探究影响交通运行状态的因素,并基于影响因素设计了多特征融合的交通预测模型。首先,本文从交通运行状态的判别和交通运行状态预测作为
创伤、感染、骨肿瘤切除等造成的骨缺损的修复是困扰骨科领域的一大难题。人工骨移植以其低免疫原性、无二次创伤、来源广泛等优点,在骨修复领域受到广泛关注。经过多年发展,人工骨已实现从短期“替代填充”到永久“替换修复”的重大突破,但仍存在材料“生物性融合”欠佳,修复周期较长且不可控等问题。为解决上述问题,越来越多的人工骨材料被要求能仿生细胞和组织生长的微环境,最终实现对细胞增殖与分化以及组织结构和功能修复
随着对盲人心理地图的研究与认知,周围场景完整的认知与盲人心理地图构建和行走规划等任务息息相关。因此采用便捷手段构建完整三维场景语义地图,以辅助盲人加强对周围场景的认知,有利于帮助盲人构建心理地图,方便其出行。本文利用视觉SLAM技术,从场景语义信息提取关键技术入手,并选择SLAM辅助构建语义地图的思路,设计了构建语义地图系统。本文提出了RGB-D double Fusion结构,融合了RGB信息与
柑橘溃疡病是由Xanthomonas citri subsp.citri引起的一种柑橘疾病。该病会在果实和叶片上造成坑状病变,严重时会导致落叶、落果、果树活力下降,影响果实口感。目前针对该病害使用最广泛的化学杀菌剂会对环境产生很大的负面影响。生物防治在控制植物病原体的同时,也减少农业措施对环境的负面影响。因此,对柑橘溃疡病的生物防治机理研究具有重大意义。本研究选取实验室早期从赣南脐橙叶片分离得到的
随着中国工业水平的不断发展,工件的识别定位也逐渐成为了工业生产中最重要的环节之一。但由于工业现场的环境复杂,容易造成工件的互相堆叠遮挡,对工件轮廓造成断裂和重叠,难以通过工件的轮廓对工件进行识别和定位。本文利用堆叠工件的骨架图像和轮廓角点,对堆叠工件的轮廓进行划分,将不同的工件局部轮廓段提取出来。并且对传统TCDs形状描述子进行改进,使用角点对工件局部轮廓段进行划分后,再均匀提取采样点,并且给出了
车辆检测模型易受光照、遮挡和几何形变等因素的影响,且图像中车辆尺度会随着摄像机镜头的远近发生改变,导致车辆检测模型对远处的车辆辨识度不高。现阶段出现了大量基于深度学习的车辆检测算法,大多采用锚框机制作为车辆检测候选框的预处理方法,锚框机制在一定程度上能提高模型的检测精度和检测时间,但其存在诸多不足导致车辆检测算法存在一定的局限性。针对上述问题,将目标车辆的关键点视为形状未知的锚框,并提出了三类车辆
自适应信号处理算法是信号处理领域的一个重要分支,常见的应用场景有去噪、回声消除、信道均衡和系统识别等。其中,经典的算法有LMS(Least Mean Square)算法和NLMS(Normalized Least Mean Square)算法,这两种算法具有计算复杂度低和稳定性良好的优势,是目前自适应算法研究的一大热点。本文首先分析对抗脉冲噪声的自适应基础算法,通过研究经典的三类对抗脉冲噪声算法的