基于粗糙集的网格海量数据挖掘若干关键技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zhangyanruru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据中发现有用知识的一种手段,已成为目前国际上数据库和信息决策领域最前沿的研究方向之一,受到了学术界和工业界的广泛关注。但随着数据量越来越大和数据位置上的分布性,传统的计算模式己满足不了实际要求,而网格具有资源共享和协同求解的特点,为大规模分布式数据提供了良好的分析和计算平台。本文以网格服务为基础,重点研究了网格数据挖掘的若干关键技术,包括海量数据分割、网格资源分配和调度以及分布式函数挖掘算法等,主要工作如下所示:(1)利用现有的算法和理论,提出基于属性约简的粗糙集海量数据分割算法(Mass Data Partition for Rough Set on Attribute Reduction, MDPRS-AR),使得算法的分割效率提高了约70%,同时使得算法能在数据网格的相关方面中很好地应用;(2)提出了基于粗糙集和折半查找的最优属性约简算法(Optimum Attribution Reduction on Rough Set and Binary Search Algorithm, OAR-RSBSA),通过OAR-RSBSA算法可以快速找到一个约简,在此基础上构造新的样本数据。同时在传统GEP算法的基础上,结合折半查找和网格服务的思想,提出了网格下基于粗糙集、GEP和折半查找的分布式函数挖掘算法(Distributed Function Mining on Rough Set ,GEP and Binary Search in Grid, DFMRSGBS)。DFMRSGBS算法利用属性约简提高函数挖掘的效率和成功率,同时在全局模型生成中给出了函数一致性合并算法,使得到的全局模型能够拟合大部分的样本数据。仿真实验表明,OAR-RSBSA算法求解最优约简比传统的算法要快,DFMRSGBS算法比GEP和并行GEPSA算法的平均耗时要小,且随着网格节点个数的增加,DFMRSGBS算法的全局拟合误差明显下降;(3)根据本文的需要,给出了一种面向服务的网格数据挖掘体系架构,并详细论述了该体系结构下的各个功能模块的内容和相互之间的关系;(4)利用Eclipse平台,结合基因表达式编程算法(GEP),实现一个网格数据挖掘原型系统(Grid Data Mining System, GDMS)。详细介绍了网格数据挖掘原型系统各个主要功能模块的设计和相应门户的实现,用户通过该门户可以方便地远程执行分布式数据挖掘。
其他文献
本文对传统防火墙技术的的特点进行了分析,并指出其存在的问题,提出研究智能防火墙的必要性,并介绍了当前国内外学者对智能防火墙技术的研究现状。然后根据当前网络信息的不
随着计算机技术在纺织工业中的应用同渐广泛,纺织生产自动化已经成为纺织行业发展的必然趋势。但就目前而言,国内的织物CAD研究大多注重对单层组织织物的研究,对复杂织物组织
面对与日俱增的爆炸信息,人们获得有用知识显得越发困难,而有效的组织和管理能帮助人们便捷准确地找到所需知识,于是文本分类成为一大研究热点。由于中文的复杂性和国内相关
交通对于经济发展、生活水平提高有着非常重要的作用。智能交通系统(ITS)代表了现代化交通运输的发展方向,是一种实时、高效、全方位的综合交通运输管理系统。要构建完整的IT
近年来,恶性肿瘤(癌症)的发病率和死亡率均呈上升趋势,已成为严重威胁人类生命健康的主要疾病,早发现、早诊断、早治疗仍然是目前肿瘤临床工作的重点和难点。在肿瘤的生长过程中
图像并行处理是一种综合的数字信息处理技术,它主要是以并行计算环境和并行算法为基础借助现在拥有的设备和算法以低廉的价格实现高性能的计算,它是大数据量数字图像在计算机
随着计算机技术的高速发展,计算机虚拟技术在电子测量仪器上的应用越来越重要。传统示波器的灵敏度低、可扩展性差,不适合测量技术发展需求。虚拟仪器技术的产生和发展解决了
随着计算机技术的发展以及互联网应用的兴起,如何有效地管理与检索图像已成为目前信息检索领域中的重要课题。由于传统的基于内容的图像检索方式无法解决“语义鸿沟”(低层的
经过多年的研究,人工神经网络的研究已经取得了丰硕的成果。然而传统神经网络(BP、RBF)的权值是常数,训练的权值难以反映样本的信息,而且传统神经网络的模型难以确定,隐层神