化学化工数据挖掘技术的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:angeldd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化学化工是一门实践性很强的学科,随着计算机技术的发展,积累了大量的数据,数据挖掘技术的发展为从这些数据获取有用知识提供了有力的工具。数据挖掘方法的有效性,总是与各个领域的数据特点紧密的结合在一起。本文针对化学化工领域中的数据具有高维、复共线性和带有噪音的特点,利用神经网络、粗糙集方法、模糊系统以及统计方法,对属性筛选、连续属性的离散化、规则获取、化学模式分类建模、化工过程建模进行了研究,并介绍了数据挖掘方法和粗糙集的基本理论和方法,以及化学化工数据挖掘所面临的问题。主要内容如下:1、 提出一种基于正则化网络-遗传算法的属性筛选方法。根据神经网络剪枝中的正则化方法和灵敏度分析方法,采用贝叶斯正则化方法对网络进行训练,然后利用神经网络分类器的特性设计选择算子,利用遗传算法对神经网络的输入单元进行剪枝,从而达到属性筛选的目的。在留兰香高维模式的属性筛选中,说明了本方法优于其它方法。2、 针对粗糙集方法只能处理离散型数据,提出一种基于X2统计量的离散化方法RSE-Chi2。本方法是一种合并型的离散化方法,以X2统计量的大小作为是否合并依据,以决策系统的不确定度量函数作为离散化停止标准,通过基于背景知识的特征价值度量大小来安排各个属性离散化顺序。本方法的优点是将连续属性的离散化和特征选择有机的结合在一起,自动确定合适的离散化程度。3、 在基于粗糙集的分类规则获取中,为了使所得规则具有良好的泛化性能,并使基于规则的分类模型具有较好的推广性,提出了以下方法:采用RSE-Chi2方法,将决策系统的连续属性离散化和属性约简结合在一起,消除冗余的划分断点,使所得约简具有较好的推广性;在分辨矩阵的基础上,采用贪心算法,每次选入分类能力最强的属性值,以获得值约简的满意解;根据所得规则参数的统计性质,以及与样本条件属性值的匹配程度,对未知类别样本进行预测。在橄榄油的分类规则获取和分类建模应用中,所得结果易于理解,无需先验知识,具有较好的预测准确度。浙江大学博士学位论文 4、根据连续属性离散化后所得知识的模糊性,将粗糙集方法与模糊方法相结合,并根据神经网络原理来调整有关参数,提出了以下方法:根据粗糙集方法所得规则构建了一种用于分类的模糊一神经网络系统,利用规则参数的统计性质和离散化结果对网络参数进行初始化,并给出训练方法;提出基于粗糙集的回归分析方法,由此获得用于回归建模的模糊规则,构建用于回归建模的模糊一神经网络系统,给出了网络初始化方法和训练方法。将这两种方法分别用于化学模式分类建模和化工过程建模,具有训练速度快,网络结构简单,易于理解,推广性良好,优于统计方法和前馈神经网络方法。关键词数据挖掘粗糙集方法属性筛选离散化决策表的约简 化学模式分类建模化工过程建模
其他文献
2008年8月1日,对于中国铁路来说是一个不平常的日子。仅仅一年多前,中国铁路第六次大提速开行的200公里动车组刚刚让中国铁路走进“追风时代”。今天,最高运营时速达到350公里的
厦门禹洲广场项目采用整体提升液压爬模体系施工。该爬模体系具有模板、架子合为一体实现与导轨相互爬升的特点,操作简单、便于支拆,可提高工作效率,混凝土墙面质量得到有效
目的:研究乙酰胆碱酶抑制剂类药物联合尼莫地平片治疗脑小血管病(CSVD)致认知功能障碍的效果。方法:选取CSVD致认知功能障碍患者96例,按照随机数字表法分为对照组和观察组,每
目的:探讨全膝关节置换术后患者分别运用连续股神经阻滞(CFNB)和连续收肌管阻滞(CACB)的临床效果。方法:选取行全膝关节置换术的患者100例,将其随机分为对照组和观察组,每组
美元是美国的本位货币.一美元的含金量为0.736662克.(1973年10月18日国际货币基金组织公布)后与黄金逐渐脱钩.美元一向定有含金量,但自从1934年起即禁止私人买进和持有黄金.
综述了壳聚糖复合生物材料的研究现状。壳聚糖是自然界中产量仅次于纤维素的第二大多糖,有优异的生物学性能,在生物医用材料和医学研究领域有着广泛的应用前景,对复合材料进行了
肝组织工程支架材料是肝组织工程学的重要研究内容,是解决肝脏器官严重短缺的关键。目前用于肝组织工程支架材料的主要有天然生物材料和人工合成生物材料。天然类主要包括生物
通过现场调查了解及技术资料研究,搞清叉车自重及载重量产生的整体质量分配到每个轮子上的荷载比例、叉车轮胎的着地面积,计算出楼面的等效均布活荷载。