基于关联规则的随机森林模型

来源 :厦门大学 | 被引量 : 0次 | 上传用户:e3e45r
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展和人们收集、获取数据能力的大幅提高,数据挖掘成己为一个发现隐藏知识、归纳模式、分析信息和预测未知信息的有力工具,在许多领域中所起的作用也越来越重要。分类挖掘和关联规则挖掘是数据挖掘中的两个重要的研究领域,其实际应用范围非常广泛。关联规则挖掘旨在发现数据库中数据项间的有趣联系,而分类挖掘是对分类知识进行发现描述和区分,用较小的分类规则集形成分类器去预测未知对象。把关联规则挖掘和分类技术结合起来,就产生了关联分类技术。如何快速有效地从海量数据中挖掘出蕴含其中的冗余尽可能少的分类关联规则,并将这些规则合理、充分地利用,具有十分重要的理论意义和实际意义。   传统的关联分类技术中最终分类器的分类规则占全部的分类关联规则的比例往往很少,未能充分利用那些不是真正意义上冗余而对分类决策起重要作用的规则。本文主要针对这些不足,开展关联分类技术的改进研究。   本文用划分输入空间的观点,对经典的基于关联规则分类构建分类器的过程进行了描述和分析,该过程可以看成向右生长的一棵二叉决策树。随后提出了基于信息熵增益的关联分类技术,该方法用信息熵增益度量分类关联规则的优先级、用覆盖思想构建左右都生长的二叉决策树。接着提出了潜在分类关联规则概念,即那些被关联分类分类器忽略、不是真正意义上冗余而对分类决策起重要作用的规则。最后提出基于关联规则的随机森林分类模型。随机森林的组合思想使该模型在一定程度上利用了潜在分类关联规则。27个基准数据集的对比实验显示:我们的模型具有比传统关联分类技术CBA更高的测试准确率和更好的稳定性,是一种能利用潜在分类关联规则的可行关联分类技术。
其他文献
钢绳芯输送带被广泛的应用于各个领域,成为承担运输任务的重要环节,其正常运行是保证安全、高效地生产的关键所在。钢绳芯输送带中横向断带事故的发生对其安全运行造成极其严
电阻层析成像属于现代工业检测的前沿技术,具有非侵入、无辐射、在线测量等优点,在地质勘探、工业过程与环境监测等方面有着广泛的应用。本文的主要任务是在实验室现有的ERT
多属性决策(MADM)是决策科学的一个重要的组成部分,在工程设计、经济、管理和军事等诸多领域中有着广泛的应用。近年来,由于客观事物的复杂性、不确定性以及人类思维的模糊性
井下随钻测量仪器可以在靠近钻头处实时测量工程参数、地质参数等,能够真实地反映井下实际情况、优化钻井流程,因而在实际钻井作业中得到广泛运用。   本文的主要工作包括
在大运行范围内,飞机气动参数随着马赫数、飞行高度等物理量的变化十分显著,使得飞机的动力学模型随着飞行状态的改变而产生大幅度变化,加之飞机本身具有的非线性、多变量、
目标跟踪是无线传感器网络的一项重要应用。由于二进制传感器节点具有体积小、能耗低、节点操作和数据通信简单等特点,使得二进制无线传感络(Binary wirelesssensor networks
作为深圳特区西部重要的对外联系枢纽,南山区的经济发展导致其人口规模的快速膨胀,大大加重了城市的负担。若城市人口总量长期持续高速增长,这不仅给城市管理造成极大压力,还
随着科学技术和经济的飞速发展,能源的消耗量日益剧增,导致环境污染加剧,能源紧缺问题越来越突出。太阳能作为一种新的绿色可再生能源已经引起世界很多国家的关注,并研发出光伏发
在自然、经济和社会领域,大量存在样本以组为单位,分类任务为学习训练集中每组“最优”样本的规律,然后预测未见样本组的最优样本问题;而现有机器学习问题的样本都以个体为单
门禁系统是对重要通道进行有序化管理的有效手段,其应用范围也日益广泛。论文首先对国内外门禁系统的研究现状与发展趋势进行分析,结合当今技术热点--FPGA在嵌入式系统中的应用