论文部分内容阅读
本文主要研究了广泛存在于现实数据中的属性约简问题。对属性进行约简极大简化了工作量而且得到的结果体现了一类数据的特性,体现了蕴含在数据中的内在关系,使得基于数据的知识发现过程更加简单,因此属性约简问题的研究有着至关重要的意义。在众多求解属性约简问题的方法中,粗糙集理论因其具有仅依赖于原始数据、不需要任何外部信息的特点,在处理这个问题方面具有很强优势,故本文将用粗糙集理论作为求解属性约简问题的工具。本文主要研究内容如下:首先,在求解属性约简问题前,要先解决粗糙集理论不能直接对数据集属性中的连续型数据进行处理的问题。因此,本文提出了一种基于粗糙集相对正域的离散化算法。算法通过计算决策属性相对于条件属性的正域,将论域划分成决策值确定的等价类簇和决策值不确定的等价类簇,在等价类按其条件属性值从小到大排序后,合并相邻的决策值确定的等价类,同时合并相邻的决策值不确定的等价类,并在合并后的所形成的等价类簇中的两两等价类的边界处加入断点,对连续属性进行离散。其次,在得到经过处理的离散数据集之后,本文提出了一种基于决策值不确定等价类的属性约简算法,算法从决策表单个条件属性的决策值不确定等价类出发,利用合并条件属性时决策值不确定等价类数量减少这一结论,使用贪婪算法,按决策值不确定等价类的基数从小到大的顺序选择条件属性进行合并,当合并属性得到的属性子集所形成的不确定等价类的数量为0,合并后的属性子集是独立的且其不可区分关系与原始信息系统的不可区分关系相同时,该属性子集即为信息系统的属性约简。最后,本文算法从粗糙集理论的角度分析和利用了数据间固然存在的内在联系,为连续数据离散化方法和属性约简方法提供了一种新的解决方案。