论文部分内容阅读
随着网络技术和信息技术的不断进步,数据挖掘引起了人们的广泛关注,传统的信息处理技术越来越不能很好地满足实际应用的需要。因此,人们迫切需要具有更高效率和更强能力的信息处理技术。Pawlak提出的粗糙集理论是一种全新的处理模糊性、不确定性问题的数学工具,它无需提供数据集合之外的任何先验信息,而是利用集合上的等价关系对知识的不确定程度进行度量,这使得粗糙集理论在数据挖掘中具有更加明显的优越性。将粗糙集理论应用到数据挖掘中,需要经过数据预处理、求核属性、属性约简、规则生成等几个步骤。本文以粗糙集理论在数据挖掘过程中的步骤为线索,主要对连续属性离散化、求取决策表的核值属性、决策表的属性约简等问题进行了深入的研究。本文的主要创新工作包括:提出一种基于粗糙集理论和OPTICS算法相结合的连续属性离散化算法。运用粗糙集理论处理决策表时,要求决策表中的值用离散数据表示。因此,在深入分析和研究几种离散化算法优缺点的基础上,提出一种基于粗糙集理论和OPTICS算法相结合的连续属性离散化算法。该算法是以粗糙集理论中的依赖度作为评价机制,更好的保持了条件属性和决策属性的不可分辨关系,该算法也是一种全局的离散化算法,离散化后的信息系统更具有整体性。通过实验验证,该算法能够得到理想的离散化结果。提出一种改进的基于属性重要性的启发式约简算法。通过研究发现,基于属性重要性和基于信息熵作为启发信息的属性约简算法都是不完备的。综合考虑这两种启发信息,以粗糙集理论为依据,以属性重要性为主要标准,信息熵为辅助标准,提出一种改进的基于属性重要性的启发式约简算法。通过实验验证,该算法是个更加完备、更加合理的算法。