面向维数约简和模式分类的增减量学习研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:eusnkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,海量高维在线数据对机器学习提出了新的需求和前所未有的挑战。从日益增加的数据中快速而有效的学习新知识成为一个技术难点。传统的批量机器学习算法面对新数据时,需要抛弃已有的学习结果,重新训练和重新学习。随着数据规模的不断增加,批量算法对时间和空间的需求也快速增长,最终导致系统的学习速度滞后于数据的更新速度。因此,增量学习应运而生,旨在从新数据中渐进式的更新知识,同时修正和加强已有知识。此外,在大数据时代,数据还具有信息繁杂、真假难辨、数据价值密度低的特性,如何从已学习的知识中快速而有效的“去学习”过时无效或者错误的数据是机器学习面对的另一个技术难题。减量学习是增量学习的逆过程,其目的是微调式的更新知识,快速修正已有知识中无效或者错误的部分。  本文从机器学习中的两个核心问题,即维数约简和模式分类出发,针对增减量学习展开了深入的探讨和研究。主要的工作和贡献如下:  1.提出了特征值分解双向更新算法。该方法可以在任意增加和删除样本后,快速更新数据协方差矩阵的特征值分解,避免了传统基于奇异值分解的方法因为缺少右右奇异向量导致向下更新为NP-Hard的问题。特征值分解双向更新算法本质是将高维数据空间中协方差矩阵的增减量问题转为到降维子空间对应的行空间中自相关矩阵的增减量问题。在序列化使用中,当全数据矩阵满足低秩偏移结构时,特征值分解双向更新算法在理论上具有最优性。然后,本文基于特征值分解双向更新提出了增量、减量和增减量主成分分析算法,证明了添加或者删除样本引起均值变化的影响可以通过向中心化数据中额外添加或删除几个均值修正样本补偿。所提出的增减量主成分分析是目前第一种可同时添加和删除新旧样本的在线子空间学习算法。实验表明,所提出的减量主成分分析算法估计主成分的准确度优于传统方法;所提出的增减量主成分分析算法的估计精度和计算效率要明显优于两步使用传统增量和减量方法的实现方式。  2.提出了基于广义奇异值分解的局部鉴别子空间嵌入算法及其增量形式。本文采用广义奇异值分解来解决局部鉴别子空间嵌入的广义特征值问题。本文算法不需要类内和类间邻接散度矩阵是非奇异的,并且在全空间中搜索最佳嵌入子空间,因而可充分挖掘隐藏在数据内的局部鉴别信息。所提出的增量算法主要是通过使用奇异值分解加性修正算法解决广义奇异值分解的增量更新问题而实现的。实验表明,所提出算法的性能要优于原始的局部鉴别子空间嵌入算法和所比较的传统维数约简算法;同时,所提出的增量算法的计算效率要远高于批量算法。  3.提出了三种基于广义逆的增减量极限学习机,即节点增量、样本增量和样本减量极限学习机。它们通过隐层输出矩阵广义逆的向上更新和向下更新解决了极限学习机添加新隐节点、学习新样本和去学习旧样本后的更新问题。所提出的基于广义逆的增减量算法可以得到与批量算法相同的结果,因而保持了极限学习机的最优性、最小范数和最佳泛化能力。此外,样本增量极限学习机还解决了传统在线序列极限学习机无法自启动和数值不稳定的问题。据我们所知,样本减量极限学习机是极限学习机的第一个减量实现。实验表明,所提出算法的回归、分类性能和计算稳定性都优于传统算法。  4.提出了基于特征空间分裂的异常检测算法。该算法的检测依据是异常样本对主导主成分方向的影响要远高于正常样本。该算法将减量主成分分析应用到基于角度的异常检测,并在它们之间建立了一种天然的联系,即利用主成分减量更新时旋转矩阵的对角线元素反映角度异常。该算法是基于在线过采样主成分分析的异常检测算法的改进。特征空间分裂算法解决了在线过采样主成分分析算法中主方向的估计误差较大的问题;多主成分策略在不影响对正常样本的判断同时提高了对异常点的敏感性。实验表明,所提出算法的异常检测性能要优于所比较的几种传统算法。
其他文献
电弧炉炼钢具有能充分利用废钢资源、炼钢流程短、吨钢能耗小等优点,适应国际钢铁工业可持续发展的形势,因此得到了越来越多的应用,已成为最重要的炼钢方法之一。电弧电流和电弧电压是电弧炉控制系统最重要环节电极控制器的输入,精确测量电弧电流和电弧电压是保证电极控制器正常工作的前提。但是如何经济又精确地测量电弧电流和电弧电压仍然是现阶段存在的难题。本文以吉林通化钢铁公司120t电弧炉为研究对象,对电弧电流和电
无线传感器网络被认为是21世纪十大新兴技术之一,引起社会各界广泛关注。源定位是无线传感器网络重要应用之一,其中包括声源定位、气体污染源定位、灾难援救如火灾、地震灾害
本论文致力于研制具有较高集成度和自主知识产权的车载视频点播系统。 随着现代信息技术、电子技术、计算机控制技术、以及汽车装备技术的不断发展,新兴的电子应用系统——
市场经济的不断完善以及网络技术的飞速发展与广泛应用,极大地冲击了当前机床产品的设计与制造模式,为了满足当前市场的需求,弥补机床产品设计的市场响应能力的不足,缩短机床
语音是人机之间信息传递最简单、自然的方式,当工作条件恶劣、人手受限时,这种方式的便捷性将更加显著。语音识别经过近六十年的发展,到目前为止已经取得了不错的成绩,但目前语音
学位
稳定跟踪平台是惯性技术应用的重要领域之一,其中天线稳定技术以其广泛的应用前景成为稳定跟踪平台研究的一大热点。稳定平台的核心问题是载体姿态测量和控制技术,为了解决卫星
学位
随着我国汽车的保有量急剧的增加,交通管理智能化已成为必然趋势。车牌识别系统的研究与发展是制约交通智能化的一个重要因素。DSP车牌识别系统能适应实际道路的复杂环境,可以
移动Agent技术是随着Internet的发展而出现的一种新兴的分布式计算技术,能够较好地适应Internet分布式的特点,有效地简化分布式系统的设计、实现与维护。这些优越性使得基于移
半球谐振陀螺仪是一种高精度新型固态陀螺仪。与机械陀螺和光纤陀螺相比,半球谐振陀螺具有如下优势:结构上无高速转子、启动时间短、关机抗辐射能力强、体积小、功耗低、寿命长
本文围绕油井勘探系统中的水声通信系统,进行了通信系统的信号设计以及信号处理的研究工作。重点论述了Pattern时延差编码信号设计方案。通过理论分析以及仿真建模,论证了上