论文部分内容阅读
随着大规模数据库的广泛使用和Internet的迅速发展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有用的信息,成为当前知识发现的主要研究课题之一。而信息的不完备更是大大增加了知识获取的难度。波兰数学家Pawlak提出的粗糙集理论是一种有效处理模糊性和不确定性的数学工具。本文以不完备信息系统为对象,粗糙集理论为工具,知识获取为目的,研究基于粗糙集理论的不完备信息系统中的知识获取。 主要研究内容包括以下几个方面: (1)分析了造成数据缺失的原因、数据缺失机制、空值语义等重要问题,讨论了常用的处理缺失数据的方法。重点研究了不完备信息系统下的几种扩充粗糙集模型。分析比较了他们的特点和局限性。 (2)针对已有扩充粗糙集模型处理不完备信息系统的局限性,在已有模型的基础上,基于集对分析理论中集对势的概念定义了一种新的对象之间的分类关系,称为集对势容差关系,并由此给出一种新的粗糙集扩充模型。从局部角度,分析说明该模型的分类性能优于已有方法。同时选用UCI数据库中的数据集进行测试,通过实验表明该模型的整体分类性能也优于已有方法。因此更加适合大型不完备信息系统的处理。 (3)深入研究在集对势扩充粗糙集模型下,如何进行有效的属性约简和规则提取。提出了确定优先分辨矩阵和确定优先决策分辨矩阵的概念,给出了一种基于确定优先分辨矩阵和确定优先决策分辨矩阵的属性约简和规则提取算法。提出一种基于属性冗余度的启发式属性约简算法和基于属性相对冗余度的启发式规则提取算法,分析了算法的时间复杂度。最后给出一种改进的LEM2算法,用于不完备信息系统的规则提取。该算法可以有效的从下近似集中提取确定规则,从边界集中提取不确定规则。对于上述算法都给出了具体的计算实例,验证了所提方法在属性约简和规则提取方面的有效性。 (4)提出了基于集对势容差关系的变精度粗糙集模型,用于含有噪音的不完备信息系统知识获取。该模型可根据实际需要来调节α和β的值,得到不同层次的结果,增强了系统泛化和抗噪声能力。提出了变精度集对势粗糙集模型下,基于属性β相对冗余度的启发式属性约简算法,分析了算法的时间复杂度。在规则提取方面,也可以利用改进的LEM2算法进行规则提取,从下近似集中提取确定规则,从边界集中提取不确定规则。 (5)在本文所提的粗糙集模型基础上,设计实现了一个不完备信息系统的知识获取模型。 主要创新点包括以下几个方面: (1)定义了集对势容差关系,提出了一种集对势容差关系扩充粗糙集模型。从局部和整体两个角度,证明该模型的分类性能优于已有方法,可以有效克服已有扩充粗糙集模型在处理不完备信息系统时的局限性。因此更加适合大型不完备信息系统的处理。 (2)深入研究集对势容差关系扩充粗糙集模型下的属性约简和规则提取算法。提出了确定优先分辨矩阵和确定优先决策分辨矩阵的概念,给出了基于确定优先分辨矩阵和确定优先决策分辨矩阵的属性约简和规则提取算法。提出一种基于属性冗余度的启发式属性约简算法和基于属性相对冗余度的启发式规则提取算法。给出一种改进的LEM2算法,从属性-值对的角度进行不完备信息系统的规则提取。 (3)提出了基于集对势容差关系的变精度粗糙集模型,用于含有噪音的不完备信息系统知识获取。该模型可根据实际需要来调节α和β的值,得到不同层次的结果,增强了系统泛化和抗噪声能力。在此模型基础上,提出了基于属性β相对冗余度的启发式属性约简算法。给出了基于改进LEM2算法的规则提取算法。 (4)本文设计的不完备信息系统知识获取模型,可以更有效处理有噪音和无噪音的不完备信息。