基于粗糙集和遗传算法的大数据集数据挖掘应用研究

来源 :太原理工大学 | 被引量 : 6次 | 上传用户:chung51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining,DM)是从存放在数据库、数据仓库或其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但是潜在有用的信息和知识的过程。粗糙集理论由Z.Pawlak提出,经历了20年的发展。该理论作为一种全新的数学概念,已经在理论和应用上取得了丰硕的成果。它不依赖于数据集之外的附加信息,是处理含有噪声、不精确、不完整数据的有力工具,在医疗诊断、模式识别、专家系统、机器学习、数据挖掘等领域获得广泛应用,是进行数据挖掘的有力工具。遗传算法是Holland于1975年首先提出来的一种基于自然群体遗传演化机制的高效探索算法。它摒弃了传统的搜索方式,模拟自然界生物进化过程,采用人工进化的方式对目标空间进行随机化搜索。它将问题域中的可能解看作是群体的一个个体或染色体,并将每一个体编码成符号串形式,模拟达尔文的遗传选择和自然淘汰的生物进化过程,对群体反复进行基于遗传学的操作(选择,交叉和变异),根据预定的目标适应度函数对每个个体进行评价,依据适者生存,优胜劣汰的进化规则,不断得到更优的群体。本文应用粗糙集理论对知识分类的特点,结合遗传算法进化理论,对大型决策表中最优规则提取做了深入研究,提出了一个新的数据挖掘模型。在应用该模型的系统中包含有数据预处理,数据离散化,知识约简,规则提取--数据挖掘的一些基本过程。针对大数据表字段过多,信息冗余大的特点,本文采用粗糙集的理论方法进行处理,在数据预处理和数据离散化的基础上,对条件属性进行约简。属性约简是挖掘的核心步骤,这里运用粗化算法通过判断表的相容性进行约简;对于数据量大的决策表仅仅属性约简是不够的,对大量的规则还要进行筛选提取。使用遗传算法进行优化筛选处理,通过选择,交叉,变异后从大量的规则中得到较优的规则集。在系统的构建上,采用VC++开发工具和SQL SERVER数据库具体实现了一个基于粗糙集理论和遗传算法为核心模块算法的数据挖掘系统。最后,介绍了该模型在太原网通公司小灵通短信系统中的应用,提取出用户收发短信息成功与否的规则模式。通过验证分析,结果表明该系统是合理、有效的,实验结果有助于维护人员分析故障原因。其中群发短信查询分析模块已经安装在监控设备上运行了一年,及时发现了多起设备故障,为企业挽回了大量的经济损失。事实证明对于提高短信系统运行效率,改善网络运行质量有着显著作用。该方法模型的应用同时也是对多方法融合进行数据挖掘的有益探索。
其他文献
随着计算机应用的普及和软件产业的飞速发展,人们对于提高软件质量的要求也越来越迫切。软件测试作为保证软件质量的重要的手段之一,是软件项目顺利实施不可缺少的环节,且通常会
知识产权保护一直是信息安全领域中数字内容保护的一部分,越来越多有关计算机安全的研究集中到软件知识产权保护方面。随着对知识产权的攻击方法的不断演变,保护知识产权的相应
随着Internet的飞速发展,网络迅速成为一种重要的信息传播和交换的手段。如何通过Internet来把分布在世界各地的异构数据库里的有用数据进行整合和交换并加以综合利用,即构建
目标识别是计算机视觉的一个重要研究方向,在军事,自动化领域有着广泛的应用前景。复杂背景下动态目标的识别更是一个难点和热点。目前关于目标的识别方法已有很多,而对于复杂背
工作流技术是计算机支持的业务流程的全部或部分自动化,目的在于通过对业务工作的流程化分解改造,提高企业运作的灵活性和适应性、优化并合理利用资源,使企业能集中精力处理核心
类推是人类最常用的基本推理过程。图像类推思想是一种基于学习的思想,阐述的是计算机学习人类的类推过程,分析并学习源图像对中两幅图片的关系,将此关系应用到目标图像对中。
语音识别是近半个世纪发展起来的新兴学科,它能使计算机“听懂”人的自然语。由识别得到的信息可作为声控信号应用到多种技术领域,在工业、军事、交通、医学、民用等各方面有广
面向对象编程作为主流编程范型,在WEB系统设计实现中得到了很好的应用,但同时也早已暴露出不足,针对面向对象编程思想的不足人们提出了面向方面编程。面向方面编程很好地解决了
在机器人的各种传感器中,视觉传感器可以获得其它传感器所无法比拟的大量环境信息,为机器人的控制决策提供了可靠的信息保障,而其中双目视觉传感器又以其可获得环境中物体的深度
20世纪50年代末第一台机器人诞生以来,机器人被广泛应用到各行各业。基于视觉信息的移动机器人导航是当前移动机器人研究的一个焦点。目标跟踪和视觉避障是移动机器人导航中的