基于粗糙集理论的不完备信息系统知识获取

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zzggwd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模数据库的广泛使用和Internet的迅速发展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有用的信息,成为当前知识发现的主要研究课题之一。而信息的不完备更是大大增加了知识获取的难度。波兰数学家Pawlak提出的粗糙集理论是一种有效处理模糊性和不确定性的数学工具。本文以不完备信息系统为对象,粗糙集理论为工具,知识获取为目的,研究基于粗糙集理论的不完备信息系统中的知识获取。  主要研究内容包括以下几个方面:  (1)分析了造成数据缺失的原因、数据缺失机制、空值语义等重要问题,讨论了常用的处理缺失数据的方法。重点研究了不完备信息系统下的几种扩充粗糙集模型。分析比较了他们的特点和局限性。  (2)针对已有扩充粗糙集模型处理不完备信息系统的局限性,在已有模型的基础上,基于集对分析理论中集对势的概念定义了一种新的对象之间的分类关系,称为集对势容差关系,并由此给出一种新的粗糙集扩充模型。从局部角度,分析说明该模型的分类性能优于已有方法。同时选用UCI数据库中的数据集进行测试,通过实验表明该模型的整体分类性能也优于已有方法。因此更加适合大型不完备信息系统的处理。  (3)深入研究在集对势扩充粗糙集模型下,如何进行有效的属性约简和规则提取。提出了确定优先分辨矩阵和确定优先决策分辨矩阵的概念,给出了一种基于确定优先分辨矩阵和确定优先决策分辨矩阵的属性约简和规则提取算法。提出一种基于属性冗余度的启发式属性约简算法和基于属性相对冗余度的启发式规则提取算法,分析了算法的时间复杂度。最后给出一种改进的LEM2算法,用于不完备信息系统的规则提取。该算法可以有效的从下近似集中提取确定规则,从边界集中提取不确定规则。对于上述算法都给出了具体的计算实例,验证了所提方法在属性约简和规则提取方面的有效性。  (4)提出了基于集对势容差关系的变精度粗糙集模型,用于含有噪音的不完备信息系统知识获取。该模型可根据实际需要来调节α和β的值,得到不同层次的结果,增强了系统泛化和抗噪声能力。提出了变精度集对势粗糙集模型下,基于属性β相对冗余度的启发式属性约简算法,分析了算法的时间复杂度。在规则提取方面,也可以利用改进的LEM2算法进行规则提取,从下近似集中提取确定规则,从边界集中提取不确定规则。  (5)在本文所提的粗糙集模型基础上,设计实现了一个不完备信息系统的知识获取模型。  主要创新点包括以下几个方面:  (1)定义了集对势容差关系,提出了一种集对势容差关系扩充粗糙集模型。从局部和整体两个角度,证明该模型的分类性能优于已有方法,可以有效克服已有扩充粗糙集模型在处理不完备信息系统时的局限性。因此更加适合大型不完备信息系统的处理。  (2)深入研究集对势容差关系扩充粗糙集模型下的属性约简和规则提取算法。提出了确定优先分辨矩阵和确定优先决策分辨矩阵的概念,给出了基于确定优先分辨矩阵和确定优先决策分辨矩阵的属性约简和规则提取算法。提出一种基于属性冗余度的启发式属性约简算法和基于属性相对冗余度的启发式规则提取算法。给出一种改进的LEM2算法,从属性-值对的角度进行不完备信息系统的规则提取。  (3)提出了基于集对势容差关系的变精度粗糙集模型,用于含有噪音的不完备信息系统知识获取。该模型可根据实际需要来调节α和β的值,得到不同层次的结果,增强了系统泛化和抗噪声能力。在此模型基础上,提出了基于属性β相对冗余度的启发式属性约简算法。给出了基于改进LEM2算法的规则提取算法。  (4)本文设计的不完备信息系统知识获取模型,可以更有效处理有噪音和无噪音的不完备信息。  
其他文献
随着半导体工艺的进步,以及单处理器所碰到的物理极限和功耗等无法逾越的障碍,以多核处理器为代表的先进体系结构已经逐渐成为提高处理器性能的主要途径。多核处理器在一个芯片
近几年来,随着电子通信技术的飞速发展,特别是无线通信技术的迅速普及和半导体芯片技术的不断成熟,短距离无线通信技术已越来越受到大家的重视。蓝牙(Bluetooth)技术以其低成
伴随着互联网信息爆炸式的增长,海量数据不断产生,人们在网络上查找所需文学作品的效率越来越低。并且随着文学在互联网中的高速传播与发展,盗版、侵权、肆意抄袭作品的形势
在这个科学技术高速发展的时代,人们越来越不满足文本作为信息的来源。随着计算机应用领域的发展扩大,图像已经成为人们重要的信息来源方式,也是人类彼此交流、认识和了解物
本文针对陕西移动建立投诉受理中心的业务需求,提出了基于PBX(Private Branch Exchanger)呼叫中心的解决方案,并在Windows平台上实现,同时对其中所涉及到的TAPI技术、CTI技术
为了满足软件工业化生产的需要,缩短应用系统的开发周期,克服传统工作流管理系统重构和复用困难等问题,本文提出了基于关系数据库的轻量级工作流管理系统自动生成的技术方案
上世纪90年代,互联网的兴起加速了信息与知识的传播。近年来,随着计算机的普及以及硬件性能的加速提升,以文本方式呈现的信息数据正急速膨胀着。大规模信息检索系统的出现为
学位
在互联网高度发达的当代,云计算的诞生为人们的生活带来了极大的便利,它可以使用户能够即时方便地使用网络中的各种资源,使企业能够实现较低的成本和较高的性能解决海量信息存储
本文主要研究了一套用于测量电爆炸实验中电流的装置,并建立了电爆炸实验仿真模型,通过对仿真结果和实验结果的对比分析,得出不同参数对于电爆炸断路开关开断性能影响的规律,并验