粗糙集连续属性离散化方法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:zeer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的粗糙集理论只能对数据库中的离散属性进行处理,所以对存在连续属性的数据库必须进行离散化处理。连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,对后继阶段的机器学习或数据挖掘过程具有非常重要的意义。离散化是否合理决定着表达和提取相关信息的准确性。其中,Chi2系列算法和类-属性相互依赖(CAI)的相关算法分别是基于概率统计理论和基于信息理论的连续属性离散化重要方法。连续属性离散化方法在人工智能、机器学习等很多方面具有重要应用。首先,经过研究Chi2系列算法,本文提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确的对连续属性进行离散化。并且,在实验过程中,提出了一种训练集类比例抽取方法,很好的避免了训练集随机抽取的不均匀性。其次,本文对Chi2相关算法进行了深入分析,指出了其中的不足,提出一种新的连续属性离散化方法:Rectified Chi2算法。新算法给出了一种新的区间合并依据,能够更合理更有效地对连续属性进行离散化。在此基础上,考虑仅以最大差异为区间合并标准存在不合理性,提出一种基于差异序列为标准的区间合并方法,该方法可以大大提高Chi2系列算法的离散化效果。最后,对χ2统计量中E ij取值不精确方面进行了分析,并且提出了两种改进方案。再次,本文对Chi2相关算法(尤其是Extended Chi2算法)进行了深入研究,指出了其中存在的问题,提出一种新的基于区间相似性度量的连续属性离散化算法。新算法定义了一个区间相似度函数,用该区间相似度函数作为离散化过程的新的合并标准。同时,在函数中给出了两个重要参数:条件参数α和微调参数c,分别体现了离散化过程中的均衡性和相邻两区间数目的相差程度;并且在算法内部给出了两个重要规定。新算法不仅继承了χ2统计合理的方面,同时也解决了Chi2相关算法中存在的问题,实现了公平的标准,能够更合理更有效地对连续属性进行离散化。最后,在系统地分析基于类-属性相互依赖(CAI)的相关算法基础上,提出了一个新的离散化标准(NCAIC),该标准考虑了数据的分布和所有类与连续属性之间的相互依赖,并且引入了粗糙集上近似概念作为离散化标准中的重要组成部分。基于新的标准提出了一种基于粗糙集和互信息的CAI连续属性离散化的最新算法。新算法利用类与属性间的互信息自动控制和调整连续属性离散化的程度,使得连续属性能够更合理更有效地对进行离散化。
其他文献
网络地理信息系统(WebGIS)是GIS(Geographic InformationSystem,地理信息系统)技术与Web技术有机结合的产物。开展基于网络的GIS研究,实现不同地理位置的数据信息的统一管理
基于矩阵分解的推荐算法在推荐系统领域已得到长足发展,同时随着社交网络等的兴起,用户社交关系在推荐算法中也越来越扮演着举足轻重的地位。社交网络较传统社交的最大区别在
作为网络管理的核心功能之一,故障管理承担着保证网络业务正常运行,迅速检测并定位故障的任务。当前故障管理普遍采用基于告警事件关联的方式,随着网络规模和复杂性的增大,该方式
首先对Linux系统下的数据镜像和数据备份工具Rsync(remote sync)的工作过程进行了验证,分析和研究了其核心算法rsync。根据Rsync的功能,设计了在Windows系统下基于Internet/I
随着电子邮件在人类社会中扮演越来越重要的角色,人们对电子邮件的实时性有了更高的要求。为了达到随时随地收发邮件的目标,人们将电子邮件的客户端移植到了嵌入式手持设备,