论文部分内容阅读
支持向量机(supportvectormachine,SVMs)已经被广泛地应用于机器学习和模式识别等领域,是目前最常用的一种模式识别方法。然而,当使用支持向量机处理大规模问题时,支持向量机还存在以下局限性:1)由于支持向量机的训练过程实质是求解一个二次规划问题,而二次规划问题的求解时间复杂度和空间复杂度分别为O(N3)和O(N2)。所以当训练集规模巨大时,支持向量机的训练时间会太长,同时还会导致内存空间的不足;2)支持向量机的训练结果是用支持向量表示的。支持向量数量太大将导致超出内存限制,使得分类器不能全部装入内存。这将影响分类器的使用;3)由于计算机系统的不可靠性,集中表示的分类器将面临失效的严重风险;4)二次规划问题的求解过程本质是面向批量数据,已经训练好的支持向量机无法将新增加的训练样本纳入。
当前网格计算已经实现商业应用,并行处理技术和模块化结构已经被广泛地引入了分类器设计。为了充分利用分布式计算资源解决支持向量机的上述局限性,本论文研究了支持向量机的并行学习和增量学习问题。我们试图回答这样两个问题:一个是如何进行有效的问题分解或分类器的组合,在确保一般化能力没有显著降低或没有降低的前提下,加速支持向量机处理大规模模式分类问题的训练过程。二是如何进行有效的分类器组合,以实现支持向量机的增量学习。本文的主要贡献在以下几个方面:
(1)提出了一种新的等分聚类算法,并将该算法嵌入最小最大模块化支持向量机(M3-SVMs)。该等分聚类算法的特点是能比较均匀地实现训练集的分割,尽可能保证M3-SVMs在并行执行时各处理器间的负载平衡。当训练数据分布不是同分布时,聚类分割方法使数据的分割体现数据本身的分布特征,能减少因数据分割带来的分类信息损失。实验表明:基于等分聚类算法的最小最大模块化支持向量机方法加速了训练过程,提高了一般化能力。在性别识别实际应用中,显示了很好的应用效果。
(2)提出了分层并行支持向量机训练算法。该算法采用“交叉合并规则”并行地将非支持向量逐层筛减,使得非支持向量不会反复进入优化过程。实验表明:当支持向量所占比重较小时,该算法与通常训练支持向量机的方法相比有两个优点:第一,在保证分类器推广能力的前提下,能提高支持向量机的训练速度。第二,减少了支持向量的数目,这一优点有利于提高支持向量机的响应速度,降低支持向量机在软件和硬件实现时的成本。
(3)提出了并行支持向量机可信多数投票算法。该算法根据分类器的分类置信度实现分类器的选择,分类器的选择策略能减小组合分类器的方差(Variance)。实验表明:该算法能使组合分类器获得更好的一股化能力。该算法不但能保持与标准支持向量机几乎相同的一般化能力,还能显著地减少训练和测试总时间。
(4)提出了基于分类器组合的支持向量机增量学习算法。通过每接收到一个训练集就训练一个能输出后验概率的支持向量机,该算法实现了对块状数据流的处理。该算法根据支持向量机输出的后验概率来计算分类置信度,然后采用平均贝叶斯规则实现分类器组合。实验表明:该算法不但能保持原来学习到的知识,还能学习到新增样本中包含的知识。该算法具有实现简单,参数搜索时间短的特点。而且,该算法具有框架意义,只要是能输出后验概率的任何机器学习方法都可以集成入该算法。