论文部分内容阅读
人类的知识在不断丰富、不断更新,但相对客观世界,它又是不完全的、不可靠的和不确定的。人类正是用这不精确的、不完备的知识、不断地逐步地了解客观世界。粗糙集理论是一种处理含糊和不精确问题的新型数学工具。经典粗糙集理论在不完备信息系统里进行数据分析时受到了限制。本文主要研究在数据缺失或信息不完备的情况下基于粗糙集理论进行数据挖掘。
本文首先综述了粗糙集理论的研究现状,分析和归纳了与数据不完备性相关的重要问题以及处理缺失值的各种方法;介绍了粗糙集理论基础和一般属性约简算法以及不完备信息系统下的二元关系和一般属性约简算法。在此基础上,本文提出了概率区分矩阵这一概念,并构造出相应的区分函数,设计出一种概率属性约简算法,通过该算法可以估计某一属性包含在属性约简中的概率,从而可按照这一概率来获取所需样本。
在动态数据库中,本文提出了属性代价的概念,设计出一种新的增量式属性约简算法,该算法有效地解决了当信息系统的对象和决策属性不变而不断增加条件属性时如何增量地进行属性约简。最后,基于不完备信息系统本身的特点,对动态约简算法进行了改进,并提出了一种改进算法。