论文部分内容阅读
近年来,随着信息处理技术的广泛应用,使各行各业的电子化迅速普及,产生了海量数据信息,如何获取和发现有价值的信息并将其运用于生产实践中非常关键。因此,一个能够分析数据并且可以智能提取信息的研究领域--知识发现(Knowledge Discovery)应运而生并得到迅速发展,其中数据挖掘(Data Mining)成为当前知识发现的主要研究课题之一。
属性约简在数据挖掘或数据分析过程中有着重要的意义。一个信息系统或决策表可能有多个约简,而且约简后属性的个数将直接影响后续数据分析中规则模型的规模。人们希望找出信息系统或决策表的最小约简,但是求解最小约简已被证明是一个NP问题。
通过研究目前主要几种属性约简算法,发现多数算法选择从计算核心属性开始,按照各属性的重要程度逐渐扩大待求属性集,不同的属性重要度定义派生出不同的属性约简算法,主要有基于SkowronA的区分矩阵的属性约简算法;基于属性重要性的约简算法;基于信息熵的属性约简算法等方法。本文比较分析了目前几种主要不同属性约简算法的设计方法,在粗糙集和粒计算理论基础上,就如何实现信息系统和决策表基于属性重要程度的约简算法做了进一步研究。本文的具体工作如下:
1、提出了一种新的知识相对分布的度量方法。从粗糙集理论认为知识是区分事物能力的角度出发,利用属性之间具有不同区分能力的特点,给出一种新的度量知识的方法,其分布函数主要基于知识粒之间直观的分布变化,在此基础上提出了相对分布度的概念,用来考察属性间知识分布变化情况,之后分析了其合理性,并给出了相关性质。在相对分布概念的基础上,为了约简后产生具有更加确定性的规则,提出了联合相对分布度的概念。
2、提出了两种属性约简方法。一是在决策信息系统下基于相对分布度的属性约简算法。该算法利用相对分布度重新定义了属性的重要度,将属性重要度作为启发式信息,设计了相关约简算法。二是以联合相对分布度定义了属性重要度,并设计了相关约简算法。通过实例分析两种算法的特点及时间复杂度。
3、通过对标准数据进行了测试实验,研究了算法的执行效率;与同类算法相比较,分析了各自的优缺点,验证了算法的可行性和有效性。
最后,概括了本文的主要结果,说明本文工作的理论意义和应用价值,指出本文的不足和有待进一步解决的问题。