论文部分内容阅读
近年来数据库技术发展迅速,随着各类数据库被广泛的应用到企业、政府、科研机构等各个领域中,网络信息的规模呈现出大爆炸的趋势,人们对于这种大量的数据的分析和处理的能力却十分有限,如何从这些庞大的数据中获取有用的信息成为了人们关注的焦点。粗糙集理论是可以很方便处理不完备信息的数学工具,在分析处理不确定和不完备的数据时有着显著的优势,因此能够被广泛的应用到人工智能和数据挖掘等领域。粗糙集理论的主要优点是它对数据的进行分析完全依赖于数据本身,不需要附加任何其他的信息,确保了数据分析结果的准确性。现实的数据有以下几个特点:(1)数据量非常庞大。由于科学技术的发展,各种终端设备方便了人们对所需的数据进行收集,同时也造成了数据库的快速增长。(2)由于人为原因或者数据本身的限制,对于所研究的数据可能是不完整的。(3)生活中数据每时每刻都在不停的产生,对于这种情况也是需要有效的处理。属性约简是粗糙集理论的重要组成部分,本文主要针对属性约简部分展开研究。属性约简的目的是对知识库进行必要的化简,即在确保属性集对知识库划分能力不变的情况下,尽量降低知识库的维度,保留尽量少的属性。决策系统按完备性进行划分可以分为完备的与不完备的,目前研究者关于属性约简方面的工作大都是针对完备的决策系统,然而现实生活中因为有人为的原因或者数据采集系统本身的限制,获取到的信息大多是不完备的。基于完备决策系统的属性约简方法并不能很好的用于不完备决策系统,于是对不完备的决策系统进行研究,更能符合实际的需求。本文对当前研究人员对粗糙集理论中属性约简所做的工作进行了研究学习,并针对以上给出的数据所存在的特点,做了以下几点创新:(1)以不完备决策表为研究对象,通过引入冲突域的概念,给出了在不完备决策表下的基于冲突域的属性约简的定义,并证明了以冲突域为启发信息的属性约简方法等价于以正区域为启发信息的属性约简方法,最后设计了一个以不完备决策表为研究对象的高效的属性约简算法,该算法的时间复杂度为O(|K||C|2|U|),K=max{|Tc(xi)|,xi∈U},最后用实例说明该算法是有效的。(2)基于差别矩阵的属性约简算法是经常用到的属性约简算法之一,它由于具备直观、易于理解的性质而被广泛使用。由于在构造差别矩阵的时候往往会产生大量的重复元素以及无用的元素,这不仅浪费了大量的空间,还大大降低了算法的高效性。在现实生活中这种数据往往是不可避免的。本文以去掉重复元素以及降低无用元素的个数为目的构造了一个二叉树来存储差别属性集,该二叉树在保留直观、易于理解的特征的前提下降低了存储空间。然后设计了一个相应的算法,该算法依据差别矩阵属性约简的思想,对二叉树进行减枝处理,实现最终的属性约简,最后用实例说明算法的高效性。(3)为了克服差别矩阵占用存储空间大的问题,引入了二叉树的存储结构进行压缩,此时算法只是针对静态的决策表,而现实生活中,数据是不断增加的,在这种情况下,本文设计了一个针对二叉树结构存储的动态更新的属性约简算法,该算法可以在原有属性约简的基础上处理新增的数据,快速更新二叉树,并利用原有的属性约简求出新的属性约简,该方法比传统的抛弃已有的属性约简结果重新计算,具有明显的高效性,最后通过实例证明算法是正确的、有效的。