数据变化时分类器的更新问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:bingdongfenxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘领域的重要研究分支之一,分类任务中的分类模型都基于“独立同分步”这一前提假设,即用于训练分类器的数据集与待分数据都是由同一分布独立生成的。但是在一些问题中,数据会随着时间的推移它们会发生变化,导致独立同分布的前提不能满足,已有的分类器不能正确地反映数据的分布情况,需要对分类器模型进行更新。更新分类器最直观的做法是用所有的训练数据重新训练分类器模型,但在一些实际应用特别是在线分类的应用中,数据量往往是十分巨大的,这样的调整方法时间开销和空间开销过高,甚至是不可能完成的任务,因而需要找到一种快速、高效的分类器调整方法。 由Vapnik等人提出的统计学习理论是一种专门研究小样本情况下机器学习规律的理论,它为解决有限样本学习问题提供了一个统一的框架。支持向量机和支持向量数据描述是基于统计学习理论的分类方法,与传统分类方法相比,它们具有一定的优越性。 本文正是基于以上背景展开研究。针对出现新增训练样本的情况,本文提出了支持向量数据描述的样本增量学习方法,该方法用已经训练好的SVDD模型的支持向量作为历史数据的代表与新增数据组成训练数据集进行SVDD分类模型的训练。同时,对于大数据量的问题,使用该方法可以提高SVDD能够处理的数据规模。 对于训练样本属性值变化时分类器的更新问题,本文针对支持向量机和支持向量数据描述两种分类器模型分别提出了FU-SVM算法和FU-SVDD算法,这两种方法的核心思想是使用对类别边界情况产生影响的变化样本以及未发生变化的支持向量作为训练数据集重新训练分类器。 本文提出的三种更新方法得到的是近似结果,但从在UCI标准数据集上的实验结果可以看到,这些方法与标准训练方法的分类性能非常相近;但在时间开销和空间开销上远远低于标准方法。这对于需要在线更新的分类器来说是十分重要的。
其他文献
Zigbee是一种新兴的无线监控协议,用于实现一个传感器网络,其技术正逐步成熟。一个Zigbee监控系统由Zigbee传感器、Zigbee数传平台和监控软件三部分组成。Zigbee数传平台负责用
近年来,随着多媒体技术的发展,视频在人们的生活中扮演着越来越重要的角色。人们对于视频的质量有了越来越高的要求,视频的数据量因此变的越来越大,给视频网络带宽和存储介质带来
伴随着计算机硬件的飞速发展,数据库的联机事务处理(OLTP)性能在不断的提高。但是由于计算机应用技术在日常生活和工商业中的应用越来越广泛,人们对数据库的OLTP能力也有了更高
电子商务的优势使越来越多的交易在网上进行。智能Agent技术引入到电子商务中使网上交易的各个阶段实现自动化、智能化成为可能。谈判作为交易过程中的一个重要环节,是买卖双
Bloom Filter采用一个位向量表示数据集合并且利用Hash函数有效支持查找。它能很好的解决一个问题:判定某个元素是否属于给定集合。在分布式应用环境中,Bloom Filter 在资源定
当前web是人们获取信息的主要渠道之一,然而,用于表达Web信息的Html语言存在着与生俱来的缺点,其“标记”只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义。作为深
近年来,工作流技术已经成为人们的日常业务处理中越来越重要的技术。在全球范围内,对工作流技术的研究以及相关产品的开发进入了更为繁荣的阶段,工作流技术的研究应用日益受到学
伴随着计算机网络的普及和电子商务新政务的发展,信息安全问题变得越来越关键。要保证信息的安全性,仅仅依赖良好的加密算法是不够的,在实际应用中,还需要有可信的机制为各个独立
由于虚拟现实技术飞速发展以及市场需求的不断增加,人工生命领域的研究越来越受到人们的重视,并且这一前沿性问题已成为新的研究热点。人工生命的研究内容是在虚拟环境中加入
随着网络技术的快速发展,数字化的信息量迅速膨胀。在这个过程中,电子文档的传播追踪问题由于被认为是版权保护发展的新方向而成为了大众瞩目的焦点,而传统意义上的传播追踪系统