基于粗糙集理论—神经网络集成的数据流分类方法研究

被引量 : 0次 | 上传用户:caicai_0326
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、通信技术以及网络技术的飞速发展,许多信息系统在运行过程中都会产生大量的流式数据。典型的例子包括电信呼叫数据、股票交易数据、互联网通信数据、搜索引擎数据等。这种新的数据类型——数据流,是一种实时的、连续到达且速度快、规模宏大的数据有序序列。数据流上的分类就是通过单遍扫描数据流,提出一个分类模型或函数,并利用该模型将数据对象映射到某一个给定的类别中。对数据流数据进行分类时主要的困难在于:数据包含大量的冗余属性,过多的属性会影响模型的构建速度和分类精度;同时,由于数据连续不断地持续到达,分类模型必须随着数据的快速流入而实现高效地更新,从而达到分类模型能够正确地映射当前数据中的分类信息的目的。数据流数据的特殊性,决定了对数据流分类所采用的方法必须有别于传统的数据挖掘分类方法,同时分类方法和技术在不同的学科领域都有着非常广阔的应用前景,因此,研究稳定的、快速的、准确的数据流分类方法具有巨大的理论价值和应用价值。本文将粗糙集理论和神经网络方法相结合,充分发挥了二者的优势互补性来应对数据流的高维性、数据量大等特点。粗糙集理论具有较强的不确定、不完整信息处理能力,并且只通过数据本身而无需任何多余的信息,就可以获得数据之间的相关性并约简属性个数;神经网络具有很强的非线性映射能力,在处理非线性模式时其精确度优于其他的数据挖掘方法,尤其适合处理大数据集数据,并且具有良好的容错性、自适应性和抗噪声干扰的能力。将二者的优势充分结合起来,能够有效地降低神经网络输入端的节点数,极大地简化神经网络的复杂结构,从而提高神经网络模型的分类预测精度。另外,本文采用了滑动窗口技术来应对数据流流速快的问题,将数据流划分成若干个大小相同的数据块,每个数据块训练一个个体分类器,多个个体分类器组成一个集成分类器,利用集成方法能够有效地降低模型的泛化误差;并且,个体分类器的训练速度一般要高于单一模型的更新速度,也更加适合处理高速产生的数据流。根据粗糙集理论、神经网络方法和集成学习理论,本文提出了一种基于粗糙集约简、神经网络集成的数据流分类方法,并且在实际数据上的对比仿真实验得到了很好的分类预测效果,从而证明了该方法是可行且有效的。
其他文献
益生元是一种不可消化的食品成分,它能够调节肠道菌群促进人体健康。将益生元添加于发酵乳中能影响发酵乳的品质,益生元还可基于自身的益生特性增强发酵乳的功能性。本文主要
厦门220kV春围Ⅱ路海底电缆首次在国内使用了大截面(2 500mm~2)、高电压(220kV)等级的自容式充油聚丙烯薄膜木纤维复合纸(PPLP)绝缘复合光纤电缆。介绍了该海底电缆的选型思
当今社会发展步入了知识网络时代,工业设计行业跟随着时代的进步发生了颠覆性的变革。工业设计协会第29届年度代表大会对工业设计进行了重新定义,中国工程院在《关于大力发展
本文分别以FeSO4.7H2O、(NH4)2Fe(SO4)2.6H2O和NaOH、NH3.H2O为原料,以KC lO4与KNO3为氧化剂,采用水热合成法分别合成出Fe3O4六角片状晶体和单晶纳米棒。产物分别用X射线衍射
新生代农民工是继“民工潮”后,具有典型时代意义的群体。经济的飞速发展与观念的不断推进,加快了新生代农民从“城市建设者”向“城市主人”的身份转换速度。因此,新生代农民工
改革开放以来,我国的经济迅猛发展,各个企业建立一系列现代化的企业管理制度已经成为其生存、发展的基础。现代企业制度权责分明,管理上科学有效,对于企业的发展十分重要,但
本文从探究制约学生写作能力提高的障碍心理入手,客观地分析了这些障碍心理产生的原因,结合写作教学实际,提出了科学的矫治方法。
“管、办、评”分离是《国家中长期教育改革和发展规划纲要(2010-2020)》关于我国现阶段教育体制改革的一项重要命题,是扭转当前教育体制集权程度较高的局面,构建政府、学校
21世纪是一个互联网高速发展的时代,在这种互联互通的网络日益普及的形势下,高校学生的学习、生活和思维观念都被深刻的影响着。同时,高校马克思主义理论教育工作亦受到了诸
Al-Ni纳米纤维具有比表面积大,可回收性良好的优点,在催化剂领域具有潜在应用价值。本文采用NaOH溶液选择性腐蚀Al-Ni合金制备Al-Ni纳米纤维,并研究Co含量与超重力场凝固对所