论文部分内容阅读
正例与未标注学习(Positive and Unlabeled Learning,PU学习)是只用正例与未标注数据训练分类模型的学习问题。传统的分类算法需要全标注的训练样本来训练分类模型,而在现实中,数据经常是未标注或少量标注的。对于二分类问题,在许多情况下除了未标注数据,还可以容易地获取正例数据。如果只用正例与未标注数据就能训练出和全标注数据下相似的分类模型,则可以节约因标注数据而花费的时间和资源。针对PU学习问题,本文研究如何基于全标注的随机森林算法组合POSC4.5算法,得到一个具有较高分类性能、使用较少训练时间的PU学习随机森林集成算法。主要研究成果如下:(1)对POSC4.5算法进行扩展,加入了随机特征选择。POSC4.5决策树算法是一个分类效果好、具备计算学习理论基础等优点的PU算法,本文将POSC4.5算法用作随机森林的基学习算法。首先对其进行扩展,使算法在生成决策树的过程中,在每个树结点上可以随机选择一个属性子集,然后在这个集合中使用PU学习中计算信息增益率的方法得到划分属性。(2)针对两种不同的PU场景,提出了两种用于PU学习的随机森林算法。在PU学习的两种场景中,PU训练数据以不同的方式产生。在分析POSC4.5算法的计算学习理论基础之后,针对不同的场景,对于随机森林中的自助法抽样采用两种处理方式:先将正例放入未标注数据再进行抽样和直接在正例与未标注数据上分别进行抽样。相应地得到了两种用于PU学习的随机森林算法。(3)提出了针对PU训练数据计算袋外误差的方法,用于随机特征选择参数K的选取。在全标注的随机森林算法中,可使用训练集计算模型的袋外误差,袋外误差是泛化误差的无偏估计。袋外误差可用于选择随机森林中的随机特征选择参数K,以得到一个泛化误差较小的分类模型。本文利用POSC4.5中的参数选择指标,提出了针对PU训练数据计算袋外误差的方法,用于参数K的选择。在UCI数据集上的实验结果表明,本文提出的用于PU学习的随机森林算法同POSC4.5算法、装袋法的POSC4.5算法、偏置支持向量机算法相比有较高的分类精度,同支持向量机算法相比有较短的训练时间。