论文部分内容阅读
随着现代信息技术和计算机网络技术的不断壮大,人们可以非常容易地通过各种途径获得数据,大量的数据已经充斥在我们的工作以及生活之中.面对如此纷繁的数据,如果我们仍然采用传统的人工方式来进行处理会显得不切实际。如何能够快速而又准确地从这些海量的数据中提取出有价值的知识来帮助我们进行决策和管理成了大家关注的问题.于是我们很容易就会想到处理这些数据可以借助运算速度最快的计算机来实现。因此需要研究者对机器学习特别是数据库知识发现做更加深入和广泛的研究,而数据库中往往存在冗余数据、缺失数据、不确定的数据甚至不一致的数据等诸多情况.这些数据成了知识发现过程中的一大障碍。波兰数学家Z.Pawlak在1982年提出粗糙集理论,粗糙集理论能够处理模糊和不确定性数据,并且它具有的模型简单直观,无需数据先验信息。根据粗糙集理论提取出的规则易于理解,自此理论提出之后已被成功地运用于商业等领域。本文针对粗糙集理论在知识发现过程中几个关键问题:数据预处理、约简、规则提取等进行了深入的研究.重点对粗糙集理论在知识发现过程中约简算法进行了分析和总结,到目前为止还没有一个公认的、高效的约简算法。在此基础上,作者提出了基于差别矩阵和启发式约简的改进算法,以减少时间复杂度,提高算法效率并获取最优约简。本文首先对粗糙集理论的发展、国内外研究现状及研究意义、粗糙集理论基础进行了研究,并对知识发现过程中各环节运用粗糙集理论的方法进行了分析;其次论文分析了数据预处理阶段常用的几种属性离散化方法,重点对连续属性离散化的NS离散算法进行了研究。再次对决策表的约简问题进行了分析,重点讨论了属性的约简和属性值的约简问题。在属性约简方面,对目前常见的粗糙集属性约简算法进行研究总结,指出了存在的问题,并在此基础上,针对差别矩阵以及启发式约简算法提出了改进算法,减少算法在计算时所需的时间和空间复杂度,求取最小约简。在属性值约简方面,提出了基于启发式值约简算法的改进算法.实现了有效地获取规则.最后通过UCI数据库的实验对比分析,验证了改进算法具有更高的效率,并能够得到较优的约简结果。本文还将改进后的约简算法系统地应用到学生考试成绩分析中,对得到的规则进行科学地评价,找出影响学生成绩的潜在因素,并提出学习建议。通过实际的应用,再次验证了改进算法的有效性和可行性。