论文部分内容阅读
连续属性离散化问题是数据挖掘重要的研究步骤之一.本文基于粗糙集的有关理论,提出了一种新的连续属性离散化方法.首先提出度量属性区间离散化效果的区间类信息熵的概念,然后根据已有数据的取值构成候选断点区间集,在控制区间类信息熵小于给定的某个值ζ的前提下对相邻的区间进行合并.最后通过实际的数据分析,说明该算法与经典的离散化算法相比,离散化效果更好,更有利于下一步的分析工作。