【摘 要】
:
在机器学习领域,随机森林是一种重要和常见的数据挖掘方法。随机森林不仅具有很高的分类性能,而且具有需要调整的参数较少、运算快速高效、不用担心过拟合以及较强的容忍噪声
论文部分内容阅读
在机器学习领域,随机森林是一种重要和常见的数据挖掘方法。随机森林不仅具有很高的分类性能,而且具有需要调整的参数较少、运算快速高效、不用担心过拟合以及较强的容忍噪声能力等特点。随机性能良好的性能使得其在智能信息处理、生物信息学、金融学、故障诊断、图像识别、工业自动化等领域得到了广泛的应用并取得巨大的成功,吸引了人们的广泛关注。虽然许多学者对随机森林进行了广泛的研究,并且取得了许多显著的成果,但是随机森林仍然存在一些局限和不足,拥有一些可改进的空间。本文首先对随机森林样本相似度的计算方式进行改进,提出了样本相似度计算的改进算法。与原始方法相比,改进方法增加了叶子节点路径距离的度量,更精确地度量了样本间的相似性。在基于样本相似度的分类和异常点检测应用中,通过在UCI数据集上的实验对比,改进方法均取得了比原来方法更好的效果,表明了改进方法的有效性。本文还分析了分类器的分类间隔(margin)与泛化能力的关系,提出了基于分类间隔加权的随机森林修剪算法(MB-WRF)。在每一次的剪枝中,首先计算每一棵树对分类间隔(margin)的重要性,删除重要性最小的树后,重新计算剩余每一棵树对分类间隔的重要性,以重要性对每一棵树赋予不同的权重,并与传统的随机森林做对比分析。基因数据和UCI数据上的对比实验表明MB-WRF取得了比RF更好的分类效果和更小的森林规模。
其他文献
泰州学派是宋明理学的一个重要的组成部分,也是王门后学的一个重要派别。该学派的哲学思想深受阳明学说的影响,在吸收阳明学说优秀思想的基础上创立自己的哲学体系。泰州学派
英语双及物构式一直以来都是国内外语言学界所关注的热点问题。之前对英语双及物构式所进行的研究主要从结构主义、转化形式主义和认知的角度来展开。Goldberg在20世纪90年代
“盛世修史”。由刘绪贻教授和杨生茂教授任总主编的六卷本《美国通史》(人民出版社 2 0 0 2年 10月版 ) ,是中国美国史学界老中青三代历史学家四分之一个世纪齐心协作、努力
以耐火石膏板和岩棉板为主要隔热保温材料,制作4面非承重轻质隔墙,依据相关国家标准,分别在2台耐火试验炉上开展耐火性能试验。结果表明,4面隔墙的耐火试验结果基本一致;这种
春秋是先秦礼制最健全之时期 ,认为春秋时代“礼崩乐坏”的传统观点应得到修正。不断演进的礼在春秋时代进入了成熟期 ,成熟期的礼广泛地渗透到春秋社会生产、生活的各个方面
固定资产的管理工作往往是令每一个企业较头痛的问题,特别是大中型企业的固定资产一般具有价值高、使用周期长、使用地点分散、管理难度大等特点。大中型企业的良性发展,避免不
在信息爆炸的网络时代,互联网中所包含的信息量正以指数级的速度成倍增长,简单的搜索引擎已经不能满足用户从大量的信息中搜寻并获取有效信息,信息利用率低。为了解决该问题,
朝鲜历史上一个酷似慈禧的女人,一段惊心动魄的故事……
随着中国股票市场的发展和不断完善,关于B股市场的问题也逐渐再次引起关注。上市公司持有的B股股票在融资功能上也逐渐减弱。在此背景下,本文考虑当前汇率变动和通货膨胀的经济