论文部分内容阅读
在大数据时代,海量高维在线数据对机器学习提出了新的需求和前所未有的挑战。从日益增加的数据中快速而有效的学习新知识成为一个技术难点。传统的批量机器学习算法面对新数据时,需要抛弃已有的学习结果,重新训练和重新学习。随着数据规模的不断增加,批量算法对时间和空间的需求也快速增长,最终导致系统的学习速度滞后于数据的更新速度。因此,增量学习应运而生,旨在从新数据中渐进式的更新知识,同时修正和加强已有知识。此外,在大数据时代,数据还具有信息繁杂、真假难辨、数据价值密度低的特性,如何从已学习的知识中快速而有效的“去学习”过时无效或者错误的数据是机器学习面对的另一个技术难题。减量学习是增量学习的逆过程,其目的是微调式的更新知识,快速修正已有知识中无效或者错误的部分。 本文从机器学习中的两个核心问题,即维数约简和模式分类出发,针对增减量学习展开了深入的探讨和研究。主要的工作和贡献如下: 1.提出了特征值分解双向更新算法。该方法可以在任意增加和删除样本后,快速更新数据协方差矩阵的特征值分解,避免了传统基于奇异值分解的方法因为缺少右右奇异向量导致向下更新为NP-Hard的问题。特征值分解双向更新算法本质是将高维数据空间中协方差矩阵的增减量问题转为到降维子空间对应的行空间中自相关矩阵的增减量问题。在序列化使用中,当全数据矩阵满足低秩偏移结构时,特征值分解双向更新算法在理论上具有最优性。然后,本文基于特征值分解双向更新提出了增量、减量和增减量主成分分析算法,证明了添加或者删除样本引起均值变化的影响可以通过向中心化数据中额外添加或删除几个均值修正样本补偿。所提出的增减量主成分分析是目前第一种可同时添加和删除新旧样本的在线子空间学习算法。实验表明,所提出的减量主成分分析算法估计主成分的准确度优于传统方法;所提出的增减量主成分分析算法的估计精度和计算效率要明显优于两步使用传统增量和减量方法的实现方式。 2.提出了基于广义奇异值分解的局部鉴别子空间嵌入算法及其增量形式。本文采用广义奇异值分解来解决局部鉴别子空间嵌入的广义特征值问题。本文算法不需要类内和类间邻接散度矩阵是非奇异的,并且在全空间中搜索最佳嵌入子空间,因而可充分挖掘隐藏在数据内的局部鉴别信息。所提出的增量算法主要是通过使用奇异值分解加性修正算法解决广义奇异值分解的增量更新问题而实现的。实验表明,所提出算法的性能要优于原始的局部鉴别子空间嵌入算法和所比较的传统维数约简算法;同时,所提出的增量算法的计算效率要远高于批量算法。 3.提出了三种基于广义逆的增减量极限学习机,即节点增量、样本增量和样本减量极限学习机。它们通过隐层输出矩阵广义逆的向上更新和向下更新解决了极限学习机添加新隐节点、学习新样本和去学习旧样本后的更新问题。所提出的基于广义逆的增减量算法可以得到与批量算法相同的结果,因而保持了极限学习机的最优性、最小范数和最佳泛化能力。此外,样本增量极限学习机还解决了传统在线序列极限学习机无法自启动和数值不稳定的问题。据我们所知,样本减量极限学习机是极限学习机的第一个减量实现。实验表明,所提出算法的回归、分类性能和计算稳定性都优于传统算法。 4.提出了基于特征空间分裂的异常检测算法。该算法的检测依据是异常样本对主导主成分方向的影响要远高于正常样本。该算法将减量主成分分析应用到基于角度的异常检测,并在它们之间建立了一种天然的联系,即利用主成分减量更新时旋转矩阵的对角线元素反映角度异常。该算法是基于在线过采样主成分分析的异常检测算法的改进。特征空间分裂算法解决了在线过采样主成分分析算法中主方向的估计误差较大的问题;多主成分策略在不影响对正常样本的判断同时提高了对异常点的敏感性。实验表明,所提出算法的异常检测性能要优于所比较的几种传统算法。