论文部分内容阅读
随着数据库技术的成熟,数据应用的普及,以及互联网的高速发展,人类积累的数据量正在以指数级速度迅速增长。传统的数据分析和查询方法已不能满足人们对隐藏在数据背后的知识的迫切需要,在这种社会需求的强劲推动下,知识发现和数据挖掘应运而生,而粗集理论作为一门新的数学工具,凭借它不需要附加任何外界信息或先验知识这一特点,突破了其它数据分析工具的局限,避免了人的主观因素对数据挖掘结果的影响,逐渐成为了研究知识发现的重要的数学工具之一。
由于数据预处理是KDD处理步骤中非常重要的一环,其结果将直接影响到KDD的效率、准确度以及最终模式的有效性。而经典的粗集理论不能处理原始数据资料中的遗漏信息以及值域为实数的数据,需要经过数据预处理,包括数据补齐和离散化处理后才能进行知识获取,因此如何有效地进行数据预处理具有非常重要的现实意义。
本文围绕基于粗集的数据预处理中数据补齐和连续属性离散化展开讨论。首先分析了当前主要的数据补齐算法的特点和不足,指出了数据补齐的原则和目标,并针对已有的基于粗集不完备信息系统补齐算法ROUSTIDA的缺陷,提出了基于量化相似关系模型和基于受限相似关系模型的数据补齐算法,以使更多的缺损数据得到科学的填补,尽量避免因采用其它方法可能导致的决策规则矛盾的问题。为了提高粗集模型抗噪音干扰的能力,又提出了基于变精度粗集模型的数据补齐算法,以使模型在数据存在噪音干扰的情况下,仍然能获得好的机器学习效果。
然后,对目前流行的离散化算法进行了详细的分析和评价,指出了离散化的方向和目标,并提出了基于粗糙信息熵的离散化算法,以便在保证划分后决策表相容性的前提下,获得比较合理的划分点。
最后,提出了电子商务的潜在客户挖掘系统,并将前面提出的基于粗集的算法理论应用到该系统中,同时和其他几种现有的数据补齐和离散化算法进行了实验比较和结果分析。并指出本文创新之处以及存在的问题和努力的方向。