基于聚类的主动学习实例选择方法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:gjb5000a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域中,标记实例是个代价很高且耗时的工作。作为机器学习领域的重要研究方向之一,主动学习旨在根据选择策略从无标记实例中选择信息量最大的部分实例交由专家标记,以达到最小化标记实例的数量获得准确的预测模型。因此,实例选择的策略对于主动学习十分关键。数据流是近年来被广泛关注的一种数据形式,其规模庞大、到达速度快,且数据的分布随时会发生变化,这些与传统数据模型截然不同的特征对主动学习方法提出了巨大的挑战。目前,针对数据流环境的主动学习实例选择策略的研究相对较少,大部分研究工作是针对传统数据形式。在此背景下,本文研究了基于聚类的主动学习实例选择方法:首先设计能够发现任意形状及不同密度的簇的聚类算法对实例进行划分,其次度量出每个簇内预测类的分布一致性,并设计代表性与不确定性相结合的实例选择策略,选择最合适的实例用于主动学习过程,具体内容包括以下两个方面:首先,为了更好地反映数据流环境下实例的实际分布情况,在研究聚类算法的基础上,针对大部分聚类算法无法发现任意形状及不同密度的簇或计算复杂度太高的问题,提出一种两阶段聚类算法。首先对数据集进行快速的初始划分,在此基础上引入距离关联性动态模型,该动态模型能够根据簇中样本点间的距离来近似反映密度,借此将初始划分结果中邻近的且密度近似的簇进行合并,以达到快速发现任意形状及不同密度的簇的效果。实验表明:该算法能够有效识别任意形状及不同密度的簇,且与同类算法相比,时间效率有显著的提高。其次,针对数据流环境下实例空间内均可能发生概念漂移的问题,在本文聚类算法的基础上,提出一种面向数据流的实例选择方法。算法采用批处理的方式,对每个批次中的实例进行聚类划分,并优先选择分类预测最不一致的簇,并从该簇中选择信息量最大的实例,信息量的度量标准将结合实例的代表性与不确定性两个因素。同时,将实例选择的范围覆盖各个簇,以此来发现可能发生的概念漂移。实验结果表明本文提出的实例选择算法在数据流下的分类准确率都优于对比算法,并且本文算法较其它算法具有更好的稳定性。
其他文献
中文分词技术主要包含以下三个研究方向:理解分词,机械分词以及统计分词。基于理解的分词方法研究尚未成熟,所以,绝大部分中文分词系统是应用机械统计相结合的方法。在目前主
随着计算机技术特别是多媒体技术的迅速发展,图像处理技术开始广泛应用于社会的各个行业,包括炉膛火焰图像处理领域。监控摄像机输出的视频信号能转化为计算机可以处理的数字
由于系统体系和呈现行为这两种概念及其理论和应用促进了大型软件系统和互联网应用的发展,所以在国际上得到计算机软件领域的普遍重视。随着技术的进步和各领域对系统要求的不
无线网络中,在一个节点向多个节点传递同样的数据包时,往往采用多播(Multicasting)的方式逐一将数据包传递给接收节点。由于无线链路的可靠性具有时变的特性,在一个节点发送
随着数据云存储概念的诞生以及因特网的普及导致的信息流加速,各种行业正在形成庞大的、复杂的、异构的数据环境。在这些庞杂的数据环境中,有一些公共数据库在生物学,天文学
随着网络和信息技术的发展,电子邮件已经成为人们沟通交流的重要工具。但是垃圾邮件的泛滥却给人们的工作和生活带来了极大的困扰。尤其从2005年开始,垃圾邮件制造者将垃圾信
传统的大型数据文件一般是存放在磁盘或光盘等二级存储介质上,应用程序必须将数据从硬盘或光盘调入内存后才能计算处理。一个适合的内存调度算法能够有效避免硬盘颠簸现象的
P2P网络突破了传统C/S或B/S这样不对称的计算模式,每个节点地位对等,可同时成为服务的使用者和提供者,这为大规模的信息共享、直接通信和协同工作提供了灵活的、可扩展的计算
随着科学技术的进步,视频监控系统正逐步朝着数字化、网络化、智能化的趋势发展。而达芬奇(DaVinci)技术的出现加速了这一进程的发展。达芬奇技术包括高性能的处理器、高度集
随着数据库系统在全球范围的广泛应用,分布式数据库系统的地位也越来越高。分布式事务的提交一直是分布式数据库研究的主要内容。其中的二阶段提交协议,由于其简单有效的特性