基于差别矩阵的属性约简算法

来源 :广西师范大学 | 被引量 : 4次 | 上传用户:xiexiangjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来数据库技术发展迅速,随着各类数据库被广泛的应用到企业、政府、科研机构等各个领域中,网络信息的规模呈现出大爆炸的趋势,人们对于这种大量的数据的分析和处理的能力却十分有限,如何从这些庞大的数据中获取有用的信息成为了人们关注的焦点。粗糙集理论是可以很方便处理不完备信息的数学工具,在分析处理不确定和不完备的数据时有着显著的优势,因此能够被广泛的应用到人工智能和数据挖掘等领域。粗糙集理论的主要优点是它对数据的进行分析完全依赖于数据本身,不需要附加任何其他的信息,确保了数据分析结果的准确性。现实的数据有以下几个特点:(1)数据量非常庞大。由于科学技术的发展,各种终端设备方便了人们对所需的数据进行收集,同时也造成了数据库的快速增长。(2)由于人为原因或者数据本身的限制,对于所研究的数据可能是不完整的。(3)生活中数据每时每刻都在不停的产生,对于这种情况也是需要有效的处理。属性约简是粗糙集理论的重要组成部分,本文主要针对属性约简部分展开研究。属性约简的目的是对知识库进行必要的化简,即在确保属性集对知识库划分能力不变的情况下,尽量降低知识库的维度,保留尽量少的属性。决策系统按完备性进行划分可以分为完备的与不完备的,目前研究者关于属性约简方面的工作大都是针对完备的决策系统,然而现实生活中因为有人为的原因或者数据采集系统本身的限制,获取到的信息大多是不完备的。基于完备决策系统的属性约简方法并不能很好的用于不完备决策系统,于是对不完备的决策系统进行研究,更能符合实际的需求。本文对当前研究人员对粗糙集理论中属性约简所做的工作进行了研究学习,并针对以上给出的数据所存在的特点,做了以下几点创新:(1)以不完备决策表为研究对象,通过引入冲突域的概念,给出了在不完备决策表下的基于冲突域的属性约简的定义,并证明了以冲突域为启发信息的属性约简方法等价于以正区域为启发信息的属性约简方法,最后设计了一个以不完备决策表为研究对象的高效的属性约简算法,该算法的时间复杂度为O(|K||C|2|U|),K=max{|Tc(xi)|,xi∈U},最后用实例说明该算法是有效的。(2)基于差别矩阵的属性约简算法是经常用到的属性约简算法之一,它由于具备直观、易于理解的性质而被广泛使用。由于在构造差别矩阵的时候往往会产生大量的重复元素以及无用的元素,这不仅浪费了大量的空间,还大大降低了算法的高效性。在现实生活中这种数据往往是不可避免的。本文以去掉重复元素以及降低无用元素的个数为目的构造了一个二叉树来存储差别属性集,该二叉树在保留直观、易于理解的特征的前提下降低了存储空间。然后设计了一个相应的算法,该算法依据差别矩阵属性约简的思想,对二叉树进行减枝处理,实现最终的属性约简,最后用实例说明算法的高效性。(3)为了克服差别矩阵占用存储空间大的问题,引入了二叉树的存储结构进行压缩,此时算法只是针对静态的决策表,而现实生活中,数据是不断增加的,在这种情况下,本文设计了一个针对二叉树结构存储的动态更新的属性约简算法,该算法可以在原有属性约简的基础上处理新增的数据,快速更新二叉树,并利用原有的属性约简求出新的属性约简,该方法比传统的抛弃已有的属性约简结果重新计算,具有明显的高效性,最后通过实例证明算法是正确的、有效的。
其他文献
云计算(Cloud computing)已成为了IT界的热门技术,甚至被视为将改变人们生活方式和商业模式的革命性技术。云计算可以被视为网络计算和虚拟化技术的融合:即利用网络分布式计算
为了方便快捷的采集物理环境中的有效信息,无线传感器网络(Wireless Sensor Networks, WSNs)已被人们广泛地应用于生产生活的各个方面,如环境监测、工业和农业控制以及国防军
航班正点率是航空运输服务的重要评价标准,每当进入冬季后,冰雪天气导致航班大量的航班延误,不仅给机场和航空公司带来经济上的损失,而且严重影响机场以及航空公司的声誉,机
随着新一代基因测序技术的飞速发展,以及单体型数据在人类遗传学等领域研究和应用的不断深入,对单体型数据的研究开始转向其他生物物种。由于测序技术的限制,通过生物学实验
在军事末端制导、遥感图像融合,医学影像诊断等领域,多传感器技术都体现出了重要的应用价值。随着传感器成像技术的快速发展,单一传感器已经无法满足实际应用的需求。作为多
粒子沉降运动在自然界中是一种很常见的现象,而且这一运动现象也广泛存在于众多领域中,例如工业应用、生命科学、环境科学和医学科学等。因此,近年来对粒子沉降这一现象的研究引
图像分类技术是计算机视觉领域重要的研究内容。图像分类性能的优劣对医学图像研究、生物数据分析、军事交通研究有至关重要的意义。伴随着机器学习的热潮,图像分类技术得到
随着信息化的普及,人们的工作和学习已经离不开网络信息。同时,随着网络信息规模的不断扩大,如何高效、准确地获取相关的中文信息逐渐成为人们关注的问题。中文分词是中文信
随着对极化SAR (Synthetic Aperture Radar)图像分类研究的深入,近年来许多监督和非监督分类方法被相继提出。早期的极化SAR图像分类算法是基于其统计特性的。之后,物理散射
“眼球追”技术为研究现实生活中人们从事具体事务时如何处理视觉信息提供了一个独特的视角。该技术被有效应用于诸多学科中,如计算机科学、神经学、实验心理学等,用来量化研究