基于粗糙集理论的不完备信息系统知识获取

来源 :安徽大学 | 被引量 : 0次 | 上传用户：zzggwd

【摘要】

：

随着大规模数据库的广泛使用和Internet的迅速发展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有用的信息,成为当前知识发现的主要研

【作者】

：

徐怡

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2008年期

【关键词】

：

粗糙集不完备信息知识获取数据缺失属性约简 LEM2算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大规模数据库的广泛使用和Internet的迅速发展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有用的信息,成为当前知识发现的主要研究课题之一。而信息的不完备更是大大增加了知识获取的难度。波兰数学家Pawlak提出的粗糙集理论是一种有效处理模糊性和不确定性的数学工具。本文以不完备信息系统为对象,粗糙集理论为工具,知识获取为目的,研究基于粗糙集理论的不完备信息系统中的知识获取。　　主要研究内容包括以下几个方面:　　(1)分析了造成数据缺失的原因、数据缺失机制、空值语义等重要问题,讨论了常用的处理缺失数据的方法。重点研究了不完备信息系统下的几种扩充粗糙集模型。分析比较了他们的特点和局限性。　　(2)针对已有扩充粗糙集模型处理不完备信息系统的局限性,在已有模型的基础上,基于集对分析理论中集对势的概念定义了一种新的对象之间的分类关系,称为集对势容差关系,并由此给出一种新的粗糙集扩充模型。从局部角度,分析说明该模型的分类性能优于已有方法。同时选用UCI数据库中的数据集进行测试,通过实验表明该模型的整体分类性能也优于已有方法。因此更加适合大型不完备信息系统的处理。　　(3)深入研究在集对势扩充粗糙集模型下,如何进行有效的属性约简和规则提取。提出了确定优先分辨矩阵和确定优先决策分辨矩阵的概念,给出了一种基于确定优先分辨矩阵和确定优先决策分辨矩阵的属性约简和规则提取算法。提出一种基于属性冗余度的启发式属性约简算法和基于属性相对冗余度的启发式规则提取算法,分析了算法的时间复杂度。最后给出一种改进的LEM2算法,用于不完备信息系统的规则提取。该算法可以有效的从下近似集中提取确定规则,从边界集中提取不确定规则。对于上述算法都给出了具体的计算实例,验证了所提方法在属性约简和规则提取方面的有效性。　　(4)提出了基于集对势容差关系的变精度粗糙集模型,用于含有噪音的不完备信息系统知识获取。该模型可根据实际需要来调节α和β的值,得到不同层次的结果,增强了系统泛化和抗噪声能力。提出了变精度集对势粗糙集模型下,基于属性β相对冗余度的启发式属性约简算法,分析了算法的时间复杂度。在规则提取方面,也可以利用改进的LEM2算法进行规则提取,从下近似集中提取确定规则,从边界集中提取不确定规则。　　(5)在本文所提的粗糙集模型基础上,设计实现了一个不完备信息系统的知识获取模型。　　主要创新点包括以下几个方面:　　(1)定义了集对势容差关系,提出了一种集对势容差关系扩充粗糙集模型。从局部和整体两个角度,证明该模型的分类性能优于已有方法,可以有效克服已有扩充粗糙集模型在处理不完备信息系统时的局限性。因此更加适合大型不完备信息系统的处理。　　(2)深入研究集对势容差关系扩充粗糙集模型下的属性约简和规则提取算法。提出了确定优先分辨矩阵和确定优先决策分辨矩阵的概念,给出了基于确定优先分辨矩阵和确定优先决策分辨矩阵的属性约简和规则提取算法。提出一种基于属性冗余度的启发式属性约简算法和基于属性相对冗余度的启发式规则提取算法。给出一种改进的LEM2算法,从属性-值对的角度进行不完备信息系统的规则提取。　　(3)提出了基于集对势容差关系的变精度粗糙集模型,用于含有噪音的不完备信息系统知识获取。该模型可根据实际需要来调节α和β的值,得到不同层次的结果,增强了系统泛化和抗噪声能力。在此模型基础上,提出了基于属性β相对冗余度的启发式属性约简算法。给出了基于改进LEM2算法的规则提取算法。　　(4)本文设计的不完备信息系统知识获取模型,可以更有效处理有噪音和无噪音的不完备信息。　　

其他文献

基于异构多核处理器的微内核内存管理机制的研究

随着半导体工艺的进步，以及单处理器所碰到的物理极限和功耗等无法逾越的障碍，以多核处理器为代表的先进体系结构已经逐渐成为提高处理器性能的主要途径。多核处理器在一个芯片

学位

异构多核处理器微内核内存管理联合分配任务调度

嵌入式系统中蓝牙文件传输应用的设计与实现

近几年来,随着电子通信技术的飞速发展,特别是无线通信技术的迅速普及和半导体芯片技术的不断成熟,短距离无线通信技术已越来越受到大家的重视。蓝牙(Bluetooth)技术以其低成

学位

嵌入式系统蓝牙协议栈对象交换协议(OBEX)BlueZXSBase255

面向网络文学的垂直搜索引擎的研究与实现

伴随着互联网信息爆炸式的增长,海量数据不断产生,人们在网络上查找所需文学作品的效率越来越低。并且随着文学在互联网中的高速传播与发展,盗版、侵权、肆意抄袭作品的形势

学位

垂直搜索引擎PageRank算法Nutch网页排序算法

基于数字图像处理技术的数字油画的研究

在这个科学技术高速发展的时代,人们越来越不满足文本作为信息的来源。随着计算机应用领域的发展扩大,图像已经成为人们重要的信息来源方式,也是人类彼此交流、认识和了解物

学位

数字图像处理技术数字油画边缘检测分割

PBX呼叫中心的分析、设计与实现

本文针对陕西移动建立投诉受理中心的业务需求,提出了基于PBX(Private Branch Exchanger)呼叫中心的解决方案,并在Windows平台上实现,同时对其中所涉及到的TAPI技术、CTI技术

学位

呼叫中心TAPICTIACDIVR

轻量级工作流管理系统生成平台的设计与实现

为了满足软件工业化生产的需要,缩短应用系统的开发周期,克服传统工作流管理系统重构和复用困难等问题,本文提出了基于关系数据库的轻量级工作流管理系统自动生成的技术方案

学位

代码生成工作流工作流建模工作流引擎轻量级工作流管理系统

基于时间域的信息检索系统的设计与实现

上世纪90年代,互联网的兴起加速了信息与知识的传播。近年来,随着计算机的普及以及硬件性能的加速提升,以文本方式呈现的信息数据正急速膨胀着。大规模信息检索系统的出现为

学位

文本检索查询处理top-kNRA-Okapi时间段检索模型

基于深度学习的3D人脸识别及身份验证方法研究

学位

云环境下基于多代理的信任管理关键技术研究

在互联网高度发达的当代，云计算的诞生为人们的生活带来了极大的便利，它可以使用户能够即时方便地使用网络中的各种资源，使企业能够实现较低的成本和较高的性能解决海量信息存储

学位

云服务多代理信任管理集中分布式综合评估

电爆炸断路开关中电流的测量与研究

本文主要研究了一套用于测量电爆炸实验中电流的装置，并建立了电爆炸实验仿真模型，通过对仿真结果和实验结果的对比分析，得出不同参数对于电爆炸断路开关开断性能影响的规律，并验

学位

电爆炸断路开关脉冲大电流Rogowski线圈PSpice模型电感储能

基于粗糙集理论的不完备信息系统知识获取

其他学术论文