论文部分内容阅读
在机器学习领域中,标记实例是个代价很高且耗时的工作。作为机器学习领域的重要研究方向之一,主动学习旨在根据选择策略从无标记实例中选择信息量最大的部分实例交由专家标记,以达到最小化标记实例的数量获得准确的预测模型。因此,实例选择的策略对于主动学习十分关键。数据流是近年来被广泛关注的一种数据形式,其规模庞大、到达速度快,且数据的分布随时会发生变化,这些与传统数据模型截然不同的特征对主动学习方法提出了巨大的挑战。目前,针对数据流环境的主动学习实例选择策略的研究相对较少,大部分研究工作是针对传统数据形式。在此背景下,本文研究了基于聚类的主动学习实例选择方法:首先设计能够发现任意形状及不同密度的簇的聚类算法对实例进行划分,其次度量出每个簇内预测类的分布一致性,并设计代表性与不确定性相结合的实例选择策略,选择最合适的实例用于主动学习过程,具体内容包括以下两个方面:首先,为了更好地反映数据流环境下实例的实际分布情况,在研究聚类算法的基础上,针对大部分聚类算法无法发现任意形状及不同密度的簇或计算复杂度太高的问题,提出一种两阶段聚类算法。首先对数据集进行快速的初始划分,在此基础上引入距离关联性动态模型,该动态模型能够根据簇中样本点间的距离来近似反映密度,借此将初始划分结果中邻近的且密度近似的簇进行合并,以达到快速发现任意形状及不同密度的簇的效果。实验表明:该算法能够有效识别任意形状及不同密度的簇,且与同类算法相比,时间效率有显著的提高。其次,针对数据流环境下实例空间内均可能发生概念漂移的问题,在本文聚类算法的基础上,提出一种面向数据流的实例选择方法。算法采用批处理的方式,对每个批次中的实例进行聚类划分,并优先选择分类预测最不一致的簇,并从该簇中选择信息量最大的实例,信息量的度量标准将结合实例的代表性与不确定性两个因素。同时,将实例选择的范围覆盖各个簇,以此来发现可能发生的概念漂移。实验结果表明本文提出的实例选择算法在数据流下的分类准确率都优于对比算法,并且本文算法较其它算法具有更好的稳定性。