数据规约中分布式实例选取关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:vsbutcher00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据规约技术的目标是在不影响后续挖掘效果的前提下,缩减数据集合的规模,进而提高后续挖掘的性能,是知识发现过程中预处理数据的一个重要步骤。实例选取作为数据规约中的一类重要算法,通过移除集合中的噪声和冗余数据,来精简数据集合,提高数据质量。面对现实应用中日益增长的数据量,在小型集合中能取得很好效果的实例选取算法面对大规模数据集合不再适用。受“分而治之”思想的启发,研究人员提出了若干分布式实例选取算法。这些算法将数据集合划分成不相关的若干部分,分别运行实例选取算法,最后将结果进行合并。由于各计算节点缺少数据的全局信息,会引入噪声和冗余数据,影响规约效果。为此,本文设计了一种新型的分布式实例选取框架,使得各计算节点能充分利用数据集合的全局信息。针对不同的应用需求,我们基于此框架设计了两种分布式实例选取算法,并基于MapReduce计算模型进行了原型实现。主要工作有以下几个方面:1、设计了一种新型的分布式实例选取框架。在分析已有算法不足的基础上,提出新的分布式并行框架。该框架将选取能代表集合数据信息的小部分数据分配到各计算节点,从而保证信息的全局性,改善已有算法准确度下降、可扩展性能差等问题,并对适用于此框架的实例选取算法进行分析。2、针对原始数据集合中的数据冗余问题,在所提出的框架基础上设计了一种新的分布式实例选取算法。该算法能生成一致性子集并与其串行版本产生相同的结果,且与输入数据顺序无关。基于MapReduce计算模型进行了算法原型实现(FCNN-MR),并在一个小型数据集合(Page-blocks)和两个大型数据集合(Poker-hand和Mnist)上进行测试,相比于已提出的分布式算法,具有更好的规约效率和准确率。3、针对原始数据集合中噪声和冗余数据并存的问题,基于随机爬山算法的思想设计了一种新的分布式实例选取算法。该算法利用遗传变异的特性不断提高选取数据子集的质量,最终达到精简数据集合的目的。算法基于MapReduce计算模型进行了原型实现(RMHC-MR),并在三个数据集合上进行测试,实验结果表明算法能有效移除噪声和冗余,具有良好的规约效率和准确率。
其他文献
电喷射打印是基于电流体动力学的一种打印制造技术,在微纳三维结构的打印制造方面具有突出优势,并成为国内外研究的热点,在微纳传感器、组织工程、新一代电子产品等领域有着
随着现代各种成像设备和技术的快速发展,包括各种光学成像系统和微波成像系统,数字图像数据的自动解译与识别技术成为现代先进成像系统应用于实际环境的支持。图像分割技术是
随着社会发展和高等教育要求的不断提升,各大高校为学生的学习和生活提供了良好的基础设施,如图书馆、体育馆等。针对这些基础设施的资源管理也变得十分重要。其中,高校体育
目的:构建兔源单链抗体噬菌体库,筛选免疫组化(IHC)用抗雌激素受体(ERα)抗体,探讨利用噬菌体展示技术筛选应用于免疫组化中高亲和力抗体的可行性。方法:用ERα重组蛋白免疫
随着多媒体时代的到来,人们对低功耗、高分辨率、宽色域的便携式显示设备的需求越来越旺盛。基于相变材料的显示技术由于其超快切换速度、高分辨率、低功耗和非易失性等卓越
在我国的行政体制中,乡镇政府是最基层的国家行政机关,是我国贯彻落实各项政策的重要基础,也是党和政府直接联系人民群众的纽带,是我们党执政的根基。乡镇公务员是政府一线工作者,是宣传和落实国家政策与方针的重要执行者,也是推进全面深化改革的重要力量。乡镇公务员长期为人民群众提供公共服务,并且承担着加强农村现代化建设、密切党群关系、维护农村和谐的重要责任,其服务质量会直接影响国家政策与方针的落实、党与政府的
本文提出了在短峰波作用下多孔介质海床土体孔隙水压力动态响应的弹塑性理论分析模型。首先推导建立了短峰波作用下海床震荡孔隙水压力与累积孔隙水压力的控制方程,设置好短
现代化强国无一不与教育密切相关,教育兴则民智启,重教育则续国力,教育是民族文明进步的基础,是国家兴旺的标杆。作为基础教育的义务教育备受社会各界关注,城乡义务教育均衡
随着视频监控的日益普及,海量的视频数据成为大数据应用的重要非结构性数据来源。自动地检测运动目标是大规模视频监控的重要研究课题,对后续的模式识别和行为分析有着重要意
氮化镓(GaN)作为重要的宽禁带半导体材料,具有高饱和电子迁移率、高热导率、耐高温和强辐射等特性,已经成为制备电力电子器件的理想材料。但是,由于难以获得高质量的单晶GaN