基于概化闭包压缩规则的关联分类器构建算法研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:SongSan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分类法将关联规则挖掘技术应用于分类领域,构建了一种新的更准确的分类器。由于关联规则挖掘在挖掘大量数据之间的并发的潜在相关性方面的优势和良好的扩展适应性,使得在其基础上的关联分类技术有广阔的应用空间。实验结果显示,一般情况下,该类算法的分类准确度要优于传统的分类系统C4.5。但是已提出的关联分类算法处理庞大规则非常困难,鲁棒性不高,也经常受到过适应现象的干扰,限制了在噪声数据干扰情况下这类算法的应用。 我们的目标是在已有关联分类算法的基础上,克服训练数据集中的噪声干扰,提供一种适应性较强的稳定的同时具有较强预测能力的关联分类器。为此,本文做了如下研究: 1.在对过适应问题和算法鲁棒性问题进行深入研究。 2.在关联分类器构建中引入项集压缩表示方法概化闭包项集挖掘思想,在L3G分类器的基础上,构建一种基于概化闭包压缩规则的具有弹性容忍噪声性能及较强预测能力的关联分类器-ACGCCR分类器。 3.针对非平衡类分布下算法的适应性情况,改进原概化闭包挖掘中的容忍限度值的设置方法,提出根据类分布状态自适应调整设置容忍限度值的方法。 4.针对概化思想在规则领域中的应用区别,提出概化闭包类规则裁剪技术。既裁掉冗余信息,又控制了概化的程度,减少压缩后规则置信度信息的损失,避免过度概化造成学习能力不足的问题。 5.通过大量实验,对比ACGCCR算法和其它关联分类算法的性能,验证ACGCCR算法的有效性。并将算法集成到公路养路费征收管理与分析决策系统中应用,效果良好。 通过大量实验证明,改进后的ACGCCR算法分类规则数大量减少,概化闭包类规则裁剪技术对控制过度概化效果明显,算法鲁棒性增强,能克服噪声数据的干扰,预测准确度也得到了提高,具有更强的适应能力,因此具有很好的应用前景。
其他文献
决策支持系统是以现代信息技术为手段,综合运用计算机技术,管理科学等科学知识,用定量分析的方式去辅助决策的一种人机交互式系统,现已成为信息领域的研究热点之一。模型库是
服务查找(匹配)在Web服务领域是一个活跃的主题。随着人们对Web服务需求的快速增长,如何从海量的Web服务中有效的发现所需服务已成为实现Web服务互操作与集成的关键。 语
本项研究是受国家自然科学基金资助的,课题名为“基于医学图像数据挖掘技术的研究”。在分析阐述智能化数据挖掘算法的基础上,研究了神经网络理论、粗糙集理论等在医学影像领
协同设计是计算机支持的协同工作的概念和技术在产品开发过程中的应用。必须在对协同设计进行分析的基础上,结合计算机支持技术,来建立协同设计系统。 审图是设计过程中的
中国互联网数据平台的相关数据显示,网络视频是用户人均单日访问时间最长的应用,同时在线视频已成为互联网第一大应用。对于网络运营商而言,其主要收入来源于向用户销售使用时长
近年来,随着移动通信技术和计算机网络技术的不断进步,ad hoc网络得到快速发展,其组播路由和拥塞控制技术受到越来越多研究者的关注。本文在比较和分析国内外现有组播路由和
本文主要研究一种时间确定性安全关键实时网络协议——时间触发以太网(Time Triggered Ethernet,TTE)。涉及内容包括TTE的网络体系架构、控制协议以及关键构件的设计;然后在仿真
软件再工程自动化是现今软件工程发展的主流。软件再工程过程是软件逆向工程与软件正向工程交替进行的过程。但是,软件逆向工程与软件正向工程相比,无论在分析策略还是在算法复
随着越来越多的网上办公、电子商务的应用,安全问题已经成为Internet进一步普及的一个关键问题。而基于密码学基础的VPN是有效解决在公用网上数据安全传输的一个有效手段。
J2EE是SUN公司定义的一套规范,提供了基于组件的方式来设计、开发、组装和部署企业应用。J2EE平台提供了一个多层次分布式的应用模型,包括了可复用的组件、基于XML的数据交换、