论文部分内容阅读
粗糙集理论是1982年由波兰科学家Z.Pawlak年提出的一种分析不精确、模糊、不确定和不完备信息的数学工具。因为它不需要任何先验知识或者其他额外的信息,就能高效地分析和处理海量的以及各种不完备的数据,从中发现隐含的知识,并揭示潜在的规律性。因此受到了科研学者和工业届人士的广泛关注和应用。目前,粗糙集理论在智能决策和人工智能领域具有重要的意义,同时在知识发现、机器学习、模式识别、数据挖掘等领域也得到的广泛应用。
在粗糙集理论中,属性约简和属性值约简是粗糙集理论的重要研究内容之一。目前许多学者主要把精力放在完备信息系统的知识约简上,对于不完备信息系统的知识约简方法相对较小,并且它们的正确识别率和时间复杂度不是很理想。为了解决这一问题,本文在分析不完备信息系统的知识约简的基础上,利用结合了置信度和覆盖度的决策熵能客观地反映决策规则的决策能力变化这一优势,提出了基于决策熵的不完备信息系统的属性约简和属性值约简算法。对于不完备信息系统的属性约简,采用深度优先的一般属性约简算法,即利用决策熵作为属性的重要度的依据,对属性进行排序,对排序后的决策表进行属性约简,即根据文中提出的基于决策熵的属性约简的定理进行属性约简,最终得到最简的属性约简集,并通过实例分析详细地阐述了算法的思想。对于不完备信息系统的属性值约简,即利用置信度和决策熵的优势,在容差关系下对整个决策表的属性进行分解,再根据置信度和决策熵判断每条决策规则中的属性值是否可以删除,从而得到最终的决策规则集,并通过实例分析详细地阐述了算法的思想。
本文仿真实验平台是基于重庆邮电大学计算机科学与技术研究所开发的RIDAS系统,通过对本算法的仿真实验,可知算法最终结果在正确识别率上略高于已有规则获取算法的识别率,并且运行时间与当前的算法相当。以经典的算法和不完备信息系统的直接约简算法作为对比实验,可以验证本文算法是一种可行的知识约简方法。但是由于本算法花费了大量时间在求个容差关系和决策熵的计算上,时间复杂度还有待降低,所以,下一步的工作是进一步的降低时间复杂度,得到高效率的知识约简方法。