论文部分内容阅读
随着社会的不断的进步和科技的发展,信息时代为人们提供了各种各样的便利,但大数据集也使人们感到迷茫。从繁杂数据中取得有效知识,将是一个非常重要的研究课题。若想有效的获得有用信息,那就必须要加快发现知识的步伐。粗糙集理论并不要求很多的先验知识,它在人工智能、还有一些其他领域已获得了显著的成果。依据现有的知识及知识库,去解决那些不确定性的问题可以是粗糙集的重要观点。一般来说,我们采用上、下近似集对模糊的知识进行描述,从而能够对模糊的知识有深刻的理解。本文主要研究基于粗糙集的属性约简算法,具体的研究内容如下:首先,对粗糙集的基础知识进行了介绍。以知识的基本定义与及知识库的基本定义为起点,给出信息决策表的概念以及上、下近似集的定义及相关的性质。其次,对属性约简算法进行了研究。这部分是本文的重点核心内容,根据属性的重要性,给出相关的约简算法。先通过一个实例,验证算法的可行性;然而对于第二个实例,该算法的可行性却无法得以验证。通过分析实例中的决策表可知:第一个决策表是相容的;而第二个却是不相容的,由此确定该算法只适用于相容的信息系统,不适用于不相容的信息系统。而后又提出了改进的算法,改进的算法在计算依赖度时,去掉不相容的对象,从而得到准确的约简结果。然后又研究该算法的优越处。通过与其他算法做对比,可知此算法存在两个优点:一是可以解决相容的和不相容的决策表问题;二是对于属性的处理更加方便,只需考虑其重要性是否大于零即可。最后,本文又在完备信息系统下,对约简算法进行研究。先介绍基于互信息增益率的约简算法及其不足,然后,也提出了改进的算法。改进的算法不仅仅考虑到自身的信息熵而且还考虑了在约简集的基础上增加属性后的互信息的变化量。依据改进的算法,获得了更好的约简集。