支持向量机的并行学习与增量学习方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(supportvectormachine,SVMs)已经被广泛地应用于机器学习和模式识别等领域,是目前最常用的一种模式识别方法。然而,当使用支持向量机处理大规模问题时,支持向量机还存在以下局限性:1)由于支持向量机的训练过程实质是求解一个二次规划问题,而二次规划问题的求解时间复杂度和空间复杂度分别为O(N3)和O(N2)。所以当训练集规模巨大时,支持向量机的训练时间会太长,同时还会导致内存空间的不足;2)支持向量机的训练结果是用支持向量表示的。支持向量数量太大将导致超出内存限制,使得分类器不能全部装入内存。这将影响分类器的使用;3)由于计算机系统的不可靠性,集中表示的分类器将面临失效的严重风险;4)二次规划问题的求解过程本质是面向批量数据,已经训练好的支持向量机无法将新增加的训练样本纳入。 当前网格计算已经实现商业应用,并行处理技术和模块化结构已经被广泛地引入了分类器设计。为了充分利用分布式计算资源解决支持向量机的上述局限性,本论文研究了支持向量机的并行学习和增量学习问题。我们试图回答这样两个问题:一个是如何进行有效的问题分解或分类器的组合,在确保一般化能力没有显著降低或没有降低的前提下,加速支持向量机处理大规模模式分类问题的训练过程。二是如何进行有效的分类器组合,以实现支持向量机的增量学习。本文的主要贡献在以下几个方面: (1)提出了一种新的等分聚类算法,并将该算法嵌入最小最大模块化支持向量机(M3-SVMs)。该等分聚类算法的特点是能比较均匀地实现训练集的分割,尽可能保证M3-SVMs在并行执行时各处理器间的负载平衡。当训练数据分布不是同分布时,聚类分割方法使数据的分割体现数据本身的分布特征,能减少因数据分割带来的分类信息损失。实验表明:基于等分聚类算法的最小最大模块化支持向量机方法加速了训练过程,提高了一般化能力。在性别识别实际应用中,显示了很好的应用效果。 (2)提出了分层并行支持向量机训练算法。该算法采用“交叉合并规则”并行地将非支持向量逐层筛减,使得非支持向量不会反复进入优化过程。实验表明:当支持向量所占比重较小时,该算法与通常训练支持向量机的方法相比有两个优点:第一,在保证分类器推广能力的前提下,能提高支持向量机的训练速度。第二,减少了支持向量的数目,这一优点有利于提高支持向量机的响应速度,降低支持向量机在软件和硬件实现时的成本。 (3)提出了并行支持向量机可信多数投票算法。该算法根据分类器的分类置信度实现分类器的选择,分类器的选择策略能减小组合分类器的方差(Variance)。实验表明:该算法能使组合分类器获得更好的一股化能力。该算法不但能保持与标准支持向量机几乎相同的一般化能力,还能显著地减少训练和测试总时间。 (4)提出了基于分类器组合的支持向量机增量学习算法。通过每接收到一个训练集就训练一个能输出后验概率的支持向量机,该算法实现了对块状数据流的处理。该算法根据支持向量机输出的后验概率来计算分类置信度,然后采用平均贝叶斯规则实现分类器组合。实验表明:该算法不但能保持原来学习到的知识,还能学习到新增样本中包含的知识。该算法具有实现简单,参数搜索时间短的特点。而且,该算法具有框架意义,只要是能输出后验概率的任何机器学习方法都可以集成入该算法。
其他文献
Internet的迅速发展为用户在网上发布和获取信息提供了极大的便利,但网上信息迅速膨胀成为信息海洋,以各种形式庞杂无序地散布在无数的服务器上,使得用户查找有价值的信息变得越
由于足迹具有相对稳定、可认定人身份、现场提取率高等特点,因此足迹识别技术在公安及安全等相关部门的工作中有着重要的作用。传统的足迹识别更多的依赖于人的经验,存在着明显
随着无线通信特别是移动通信的发展,互联网的普及,以及计算机和外设的不断增加,结合了无线通信和互联网优点的无线局域网 (WLAN, Wireless Local Area Network) 以其移动性、灵活
嵌入式系统在日常生活中显得越来越普遍,从简单的传感器到复杂的系统如:手机、网络路由器、飞机及防卫设备都涉及到嵌入式系统。另外现代化的通讯体系要求嵌入式系统必须具备通
近年来,随着IEEE 802.11协议族的不断扩充,无线网络得到了快速的发展。无线网络具有一些有线网络所没有的特性,而由这些特性带来的大量的问题至今为止并没有得到完全解决,从
本文基于Web数据库的图书信息系统是提供图书信息管理的平台,是沟通读者和图书馆的桥梁。本系统以SQL Server 2000数据库管理系统为后台数据库,采用ASP和Web网站架构技术实现基
目前Web上的信息是面向用户的,计算机无法理解,因此传统信息检索方式下,检索到的数据往往仅仅反映内容的一个侧面。在用户的需求信息和Web上的数据计算机无法准确的理解的情况下
图像的清晰度是图像处理中的一个重要参数。实际上,解释一幅图像就是提取其中包含的信息。图像越清晰,越多的信息就会被获取,反之,图像越模糊,细节越少,我们就越难对其做出解
随着软件规模的不断扩大,软件质量问题成为制约计算机发展的主要因素之一,因此在近十多年来,以软件测试为中心的软件质量保障技术成为软件生产的重要部分。农业专家系统作为一种
随着网络技术和多媒体技术的飞速发展,如何保护多媒体信息和数字产品安全的问题已经成为世界各国极为关注的重要课题.数字水印技术就是在这个背景下应运而生的,它可以有效地