论文部分内容阅读
传统的分类算法需要来自每个类别的样本,然而在现实应用中,想要获得大量标记的样本通常是昂贵费时的。PU学习(Positive Unlableled Learning)在只有正例和未标注样本下学习,在现实应用中普遍存在,近年来已得到广泛研究,但大都是针对确定数据的,而现实应用中会产生大量的不确定数据,如传感器网络、市场分析、医疗诊断。由于测量精确性的限制、过时的数据源、决策错误等原因,收集到的数据往往是不精确的,带有一定的不确定信息。因此,在只有正例和未标注样本的情况下对不确定数据进行分类分析具有重要意义。本文探讨在正例和未标注样本场景下的不确定数据分类问题,主要研究内容与成果:(1)提出在正例和未标注样本下的不确定数据分类问题,并基于朴素贝叶斯分类器来处理该问题。基于PNB(Positive Na ve Bayes)算法,一种处理确定性离散数据的PU学习贝叶斯算法,采用概率势的概念将其扩展以处理不确定离散数据。同时将处理不确定连续数据的朴素贝叶斯分类算法FBC(Formula-Based method)扩展以在只有正例和未标注样本的情况下处理不确定连续数据。实验结果表明,在只有正例和未标注样本下处理不确定数据时,与传统的PU学习贝叶斯分类算法忽略数据中的不确定性相比,本文的算法考虑到数据中的不确定性可以潜在地提高分类器的分类性能。(2)由于在正例样本和未标注样本中构建朴素贝叶斯分类器时,正例的先验概率作为参数需要人为提供,因此需要一种智能的方法来自动估计正例的先验概率。本文采用两种方法来估计正例的先验概率。第一种方法:采用一种类似F1的性能指标在只包含正例和未标注样本的验证集上评估分类器,在0.1,0.2,,0.9中选择使分类器在验证集上达到最好分类性能的值作为正例的先验概率。第二种方法:采用Elkan和Noto (2008)在“完全随机选择”假设下提出的在只有正例样本和未标注样本的情况下估计正例先验概率的方法来帮助构建朴素贝叶斯分类器。实验结果表明,采用以上两种估计正例先验概率的方法改进后的算法在避免人为给定正例先验概率的同时,在不确定数据上可以取得较好的分类性能。