论文部分内容阅读
化学化工是一门实践性很强的学科,随着计算机技术的发展,积累了大量的数据,数据挖掘技术的发展为从这些数据获取有用知识提供了有力的工具。数据挖掘方法的有效性,总是与各个领域的数据特点紧密的结合在一起。本文针对化学化工领域中的数据具有高维、复共线性和带有噪音的特点,利用神经网络、粗糙集方法、模糊系统以及统计方法,对属性筛选、连续属性的离散化、规则获取、化学模式分类建模、化工过程建模进行了研究,并介绍了数据挖掘方法和粗糙集的基本理论和方法,以及化学化工数据挖掘所面临的问题。主要内容如下:1、 提出一种基于正则化网络-遗传算法的属性筛选方法。根据神经网络剪枝中的正则化方法和灵敏度分析方法,采用贝叶斯正则化方法对网络进行训练,然后利用神经网络分类器的特性设计选择算子,利用遗传算法对神经网络的输入单元进行剪枝,从而达到属性筛选的目的。在留兰香高维模式的属性筛选中,说明了本方法优于其它方法。2、 针对粗糙集方法只能处理离散型数据,提出一种基于X2统计量的离散化方法RSE-Chi2。本方法是一种合并型的离散化方法,以X2统计量的大小作为是否合并依据,以决策系统的不确定度量函数作为离散化停止标准,通过基于背景知识的特征价值度量大小来安排各个属性离散化顺序。本方法的优点是将连续属性的离散化和特征选择有机的结合在一起,自动确定合适的离散化程度。3、 在基于粗糙集的分类规则获取中,为了使所得规则具有良好的泛化性能,并使基于规则的分类模型具有较好的推广性,提出了以下方法:采用RSE-Chi2方法,将决策系统的连续属性离散化和属性约简结合在一起,消除冗余的划分断点,使所得约简具有较好的推广性;在分辨矩阵的基础上,采用贪心算法,每次选入分类能力最强的属性值,以获得值约简的满意解;根据所得规则参数的统计性质,以及与样本条件属性值的匹配程度,对未知类别样本进行预测。在橄榄油的分类规则获取和分类建模应用中,所得结果易于理解,无需先验知识,具有较好的预测准确度。浙江大学博士学位论文 4、根据连续属性离散化后所得知识的模糊性,将粗糙集方法与模糊方法相结合,并根据神经网络原理来调整有关参数,提出了以下方法:根据粗糙集方法所得规则构建了一种用于分类的模糊一神经网络系统,利用规则参数的统计性质和离散化结果对网络参数进行初始化,并给出训练方法;提出基于粗糙集的回归分析方法,由此获得用于回归建模的模糊规则,构建用于回归建模的模糊一神经网络系统,给出了网络初始化方法和训练方法。将这两种方法分别用于化学模式分类建模和化工过程建模,具有训练速度快,网络结构简单,易于理解,推广性良好,优于统计方法和前馈神经网络方法。关键词数据挖掘粗糙集方法属性筛选离散化决策表的约简 化学模式分类建模化工过程建模