基于随机森林的正例与未标注学习研究

被引量 : 0次 | 上传用户:lost123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正例与未标注学习(Positive and Unlabeled Learning,PU学习)是只用正例与未标注数据训练分类模型的学习问题。传统的分类算法需要全标注的训练样本来训练分类模型,而在现实中,数据经常是未标注或少量标注的。对于二分类问题,在许多情况下除了未标注数据,还可以容易地获取正例数据。如果只用正例与未标注数据就能训练出和全标注数据下相似的分类模型,则可以节约因标注数据而花费的时间和资源。针对PU学习问题,本文研究如何基于全标注的随机森林算法组合POSC4.5算法,得到一个具有较高分类性能、使用较少训练时间的PU学习随机森林集成算法。主要研究成果如下:(1)对POSC4.5算法进行扩展,加入了随机特征选择。POSC4.5决策树算法是一个分类效果好、具备计算学习理论基础等优点的PU算法,本文将POSC4.5算法用作随机森林的基学习算法。首先对其进行扩展,使算法在生成决策树的过程中,在每个树结点上可以随机选择一个属性子集,然后在这个集合中使用PU学习中计算信息增益率的方法得到划分属性。(2)针对两种不同的PU场景,提出了两种用于PU学习的随机森林算法。在PU学习的两种场景中,PU训练数据以不同的方式产生。在分析POSC4.5算法的计算学习理论基础之后,针对不同的场景,对于随机森林中的自助法抽样采用两种处理方式:先将正例放入未标注数据再进行抽样和直接在正例与未标注数据上分别进行抽样。相应地得到了两种用于PU学习的随机森林算法。(3)提出了针对PU训练数据计算袋外误差的方法,用于随机特征选择参数K的选取。在全标注的随机森林算法中,可使用训练集计算模型的袋外误差,袋外误差是泛化误差的无偏估计。袋外误差可用于选择随机森林中的随机特征选择参数K,以得到一个泛化误差较小的分类模型。本文利用POSC4.5中的参数选择指标,提出了针对PU训练数据计算袋外误差的方法,用于参数K的选择。在UCI数据集上的实验结果表明,本文提出的用于PU学习的随机森林算法同POSC4.5算法、装袋法的POSC4.5算法、偏置支持向量机算法相比有较高的分类精度,同支持向量机算法相比有较短的训练时间。
其他文献
随着如今网络已经渗透到了军事、医学、教育等各个行业的I时代的发展,信息型社会对信息化人才迫切需要,教育行业任重而道远。近年来国家制定了一系列的推进教育信息化的政策纲
改革开放以来,我国各方面事业都得到发展。经济发展、居民生活水平提高,但是问题也接踵而来,中国的收入分配不公的问题也在逐渐突显。我国政府为改善收入分配不平等的问题采取了
背景阿尔兹海默病(Alzheimer’s disease, AD)是一种影响老年人的神经系统退行性疾病,临床上患者出现进行性的认知障碍、记忆减退和人格改变。AD严重影响患者生存质量,给家庭和社
提出一种用遗传算法来构造肝病诊断学习系统的方法,其中引入了肝病领域专家对规则打分的适应度评估机制,通过选择、交叉和交异等遗传操作使知识规则集得到不断地精炼.最后,用这种
在中国,社会经济发展和计划生育政策使老龄化进程大大加速。本文从人口老龄化与家庭教育投资的关系入手,从不同角度梳理两者之间的关系,并就中国非自然的老龄化后果进行了综
道路是重要的基础设施,对农村地区的发展起着重要作用。随着社会经济的发展,旧有的基础设施已经不能满足人们日益增加的交通出行需求,农村公路的等级、总量、覆盖面等方面存在的
为解决大跨度悬索桥吊索在外部激励下的风致振动问题,以南沙大桥为背景,提出一种基于杠杆放大原理附加模态阻尼比的吊索外置摆式杠杆阻尼器。针对大桥80m以上典型风致振动的
圆柱被越来越广泛应用于建筑工程中,具有较好的装饰作用。合理有效选择模板体系是圆柱施工质量控制要点之一,针对超高大直径混凝土圆柱施工技术的施工工艺操作要点进行分析,
讨论高温银浆的功能相、有机载体和玻璃相三大组成部分对高温银浆品质的影响 ,得到了一些对高温银浆的开发、研制有益的结论。 The effects of high temperature silver pas
为缓解公共财政压力,解决高速公路建设资金不足的问题,吸引外资、国有民营资本进入高速公路建设领域,一种高速公路融资和建设模式——BOT融资模式被广泛应用。从BOT融资模式的应