论文部分内容阅读
随着计算机技术、通信技术以及网络技术的飞速发展,许多信息系统在运行过程中都会产生大量的流式数据。典型的例子包括电信呼叫数据、股票交易数据、互联网通信数据、搜索引擎数据等。这种新的数据类型——数据流,是一种实时的、连续到达且速度快、规模宏大的数据有序序列。数据流上的分类就是通过单遍扫描数据流,提出一个分类模型或函数,并利用该模型将数据对象映射到某一个给定的类别中。对数据流数据进行分类时主要的困难在于:数据包含大量的冗余属性,过多的属性会影响模型的构建速度和分类精度;同时,由于数据连续不断地持续到达,分类模型必须随着数据的快速流入而实现高效地更新,从而达到分类模型能够正确地映射当前数据中的分类信息的目的。数据流数据的特殊性,决定了对数据流分类所采用的方法必须有别于传统的数据挖掘分类方法,同时分类方法和技术在不同的学科领域都有着非常广阔的应用前景,因此,研究稳定的、快速的、准确的数据流分类方法具有巨大的理论价值和应用价值。本文将粗糙集理论和神经网络方法相结合,充分发挥了二者的优势互补性来应对数据流的高维性、数据量大等特点。粗糙集理论具有较强的不确定、不完整信息处理能力,并且只通过数据本身而无需任何多余的信息,就可以获得数据之间的相关性并约简属性个数;神经网络具有很强的非线性映射能力,在处理非线性模式时其精确度优于其他的数据挖掘方法,尤其适合处理大数据集数据,并且具有良好的容错性、自适应性和抗噪声干扰的能力。将二者的优势充分结合起来,能够有效地降低神经网络输入端的节点数,极大地简化神经网络的复杂结构,从而提高神经网络模型的分类预测精度。另外,本文采用了滑动窗口技术来应对数据流流速快的问题,将数据流划分成若干个大小相同的数据块,每个数据块训练一个个体分类器,多个个体分类器组成一个集成分类器,利用集成方法能够有效地降低模型的泛化误差;并且,个体分类器的训练速度一般要高于单一模型的更新速度,也更加适合处理高速产生的数据流。根据粗糙集理论、神经网络方法和集成学习理论,本文提出了一种基于粗糙集约简、神经网络集成的数据流分类方法,并且在实际数据上的对比仿真实验得到了很好的分类预测效果,从而证明了该方法是可行且有效的。