论文部分内容阅读
传统的粗糙集理论只能对数据库中的离散属性进行处理,所以对存在连续属性的数据库必须进行离散化处理。连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,对后继阶段的机器学习或数据挖掘过程具有非常重要的意义。离散化是否合理决定着表达和提取相关信息的准确性。其中,Chi2系列算法和类-属性相互依赖(CAI)的相关算法分别是基于概率统计理论和基于信息理论的连续属性离散化重要方法。连续属性离散化方法在人工智能、机器学习等很多方面具有重要应用。首先,经过研究Chi2系列算法,本文提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确的对连续属性进行离散化。并且,在实验过程中,提出了一种训练集类比例抽取方法,很好的避免了训练集随机抽取的不均匀性。其次,本文对Chi2相关算法进行了深入分析,指出了其中的不足,提出一种新的连续属性离散化方法:Rectified Chi2算法。新算法给出了一种新的区间合并依据,能够更合理更有效地对连续属性进行离散化。在此基础上,考虑仅以最大差异为区间合并标准存在不合理性,提出一种基于差异序列为标准的区间合并方法,该方法可以大大提高Chi2系列算法的离散化效果。最后,对χ2统计量中E ij取值不精确方面进行了分析,并且提出了两种改进方案。再次,本文对Chi2相关算法(尤其是Extended Chi2算法)进行了深入研究,指出了其中存在的问题,提出一种新的基于区间相似性度量的连续属性离散化算法。新算法定义了一个区间相似度函数,用该区间相似度函数作为离散化过程的新的合并标准。同时,在函数中给出了两个重要参数:条件参数α和微调参数c,分别体现了离散化过程中的均衡性和相邻两区间数目的相差程度;并且在算法内部给出了两个重要规定。新算法不仅继承了χ2统计合理的方面,同时也解决了Chi2相关算法中存在的问题,实现了公平的标准,能够更合理更有效地对连续属性进行离散化。最后,在系统地分析基于类-属性相互依赖(CAI)的相关算法基础上,提出了一个新的离散化标准(NCAIC),该标准考虑了数据的分布和所有类与连续属性之间的相互依赖,并且引入了粗糙集上近似概念作为离散化标准中的重要组成部分。基于新的标准提出了一种基于粗糙集和互信息的CAI连续属性离散化的最新算法。新算法利用类与属性间的互信息自动控制和调整连续属性离散化的程度,使得连续属性能够更合理更有效地对进行离散化。