分类器设计中的正则化技术研究

被引量 : 9次 | 上传用户:suyu_001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正则化技术诞生于20世纪60年代,最初是由数学领域提出用于解决不适定问题。随着80年代机器学习的兴起,正则化技术被广泛应用于模式识别的各个领域。其通过引入含有问题先验知识的正则化项使解稳定的思想渗透在各种算法的设计中,并衍生出许多著名的方法,例如:正则化网络(Regularization Networks,RNs),正则化最小二乘分类器(Regularized Least-squares Classification,RLSC),支持向量机(Support Vector Machines,SVMs)和流形正则化(Manifold Regularization,MR)等等。本文着眼于模式识别中的重要环节之一――分类器设计,从正则化分类器的推广性能、正则化项的构建以及分类器对先验知识的融合等诸多层面,系统深入地研究了分类器设计中的正则化技术。本文的主要贡献在于:1.从正则化的角度提出了一个新的基于平方误差准则分类器的推广误差界。新的局部性正则化推广误差界将分类器的推广误差限定在每个样本的局部邻域内,融入了数据空间的结构信息,克服了原有推广误差界(如VC维)只适用于线性分类器的缺点,并引入了可调节的正则化参数,增强了误差界的灵活性。在此基础上,本文进一步提出了一种新的分类器设计方法――局部性正则化方法(Locality Regularization,LR)。新方法具有两个显著的特点:(1)根据推广误差界,自然地由期望风险函数的定义导出正则化项;(2)通过与谱图理论、流形学习相结合,将正则化项构建在样本的局部可变邻域上,融合了数据空间的全局和局部结构信息,提高了分类器的推广性能。实验验证了新算法在所用数据集上,尤其是对于训练和测试样本分布不均衡的数据集,具有比经典正则化方法更优的分类性能。2.进一步拓展了局部性正则化方法的应用领域,提出了一种基于局部性正则化推广误差界的特征选择算法。作为一种混合滤波-封装方法,新算法以局部性正则化推广误差界为评价函数,以局部性正则化方法为目标分类器,既保持了较高的计算效率,又保证了利用所选择特征设计的分类器具有良好的推广性能。3.针对传统正则化方法仅关注分类器数据独立的光滑性惩罚这一缺点,提出了一种数据依赖正则化项的构建理念――判别正则化项(Discriminative Regularization Term,Rdisreg)。新的判别正则化项主要侧重于:(1)分类器输出空间中数据的可分性,通过采用不同的方式定义输出样本的类内紧凑性和类间分离性,逐步地在正则化项中引入有助于分类的样本判别信息和结构信息;(2)始终保持只含有一个需要调节的正则化因子,有效地避免多类分类优化问题中潜在的“维数灾难”;(3)较强的推广性,通过将其与不同的损失函数、正则化项相结合,可以衍生出更多新的算法,从而最终为分类器设计提供一种新的途径。本文以最小二乘损失函数为例,在嵌入了判别信息的基础上,逐步在判别正则化项中融入全局和局部结构信息,提出了两种判别性正则化方法(Discriminative Regularization,DR)。通过在目标函数中嵌入等性约束,新算法不但可解析求解,并且求解框架自然地涵盖了两类和多类问题。实验验证了新算法优越的推广性和良好的稳定性。4.支持向量机(SVM)是一种典型的正则化分类器,本文首次尝试从数据结构粒度的观点揭示了SVM及其相关改进方法之间的关系,构建了一个结构正则化大间隔分类器框架,并在此基础上,进一步提出了一种新的大间隔算法――结构正则化支持向量机(Structurally Regularized Support Vector Machine,SRSVM)。通过将数据的聚类结构信息以一个新的正则化项的形式嵌入到传统的SVM目标函数中,新方法主要着重于:(1)保持传统SVM的优化框架,显著降低同类算法的计算复杂度,简化核化过程,快捷有效地收敛到全局最优解,并保持解的稀疏性;(2)从理论上严格证明,数据结构信息的引入确实能够得到比SVM更好的推广性能。5.根据“没有免费午餐定理”,本文对正则化技术的研究都涉及如何在正则化分类器中尽可能地融入数据的先验知识,其中包括判别信息、结构信息等。因此,如何有效地从数据中挖掘出结构信息也是本文的一个研究方向,由此提出了一种新的鲁棒局部嵌入算法。新算法从样本的鲁棒重建入手,同时考虑了数据流形的全局和局部结构信息,具有比通常流形算法LLE更紧致的嵌入,并有效地抑制了野值对嵌入的影响。在分类器设计上的初步实验表明,新算法的引入进一步提高了正则化分类器的性能。
其他文献
进入新的发展阶段,经济结构调整和发展方式转变越来越依靠创新驱动。增强创新驱动发展新动力,已经成为解决中国经济发展深层次问题的根本举措。本文阐释了我国创新驱动发展面
本文对中国设施农业的发展现状及存在的主要问题做了全面系统的概述。针对我国设施农业发展的特点,提出发展绿色环控设施农业是我国设施农业发展的必由之路,并就如何发展绿色
目的:研究乙肝病毒X蛋白(hepatitis B virus X protein,HBX)对Gankyrin表达水平的影响以及Wnt/β-catenin信号通路在HBX基因调控Gankyrin表达中的作用。方法:HBX腺病毒表达载
产品设计过程中,需要利用二维进行图纸设计,也需要利用三维软件进行装配及后续产品性能校核。文章通过介绍CAXA二维与三维软件之间相互转换的方法,有效结合利用,保证产品理论
本文通过一系列实验考察了在目的语国学习汉语3个月~27个月泰国学习者对普通话三组塞擦音/擦音的知觉与产出,共分四个部分:(1)泰语塞擦音/擦音对汉语塞擦音/擦音的知觉同化;(2
随着电网投资环境和条件的变化,城市电网规划建设面临越来越多的风险,尤其是冰灾、地震等自然灾害的出现等,人们开始认识到了城市电网规划风险管理的重要性,探讨城市电网规划
<正>中国美术家协会核心刊物《美术》杂志,近年来连续开展的”中国当代艺术审美理想和西方现代主义、后现代主义艺术思潮”笔谈讨论,揭开了迷雾,扩清了思想,在全国美术界产生
目前,工业上使用的控制仪表其核心控制算法大多仍然是PID算法。这是因为PID控制器结构简单、参数少并且容易整定。但是,PID控制器只适用于可建立精确数学模型的确定性系统。
随着人们对上转换发光研究的深入,近年来出现了一种稀土掺杂氟氧化物上转换发光玻璃,它具有氟化物玻璃低声子能量的光学特性又有氧化物玻璃的良好的物理化学稳定性和高的机械
随着电火花加工技术的迅速发展,电火花沉积技术作为一种表面改性处理工艺,已成为国内外电加工领域的研究热点,并实现了工程应用。脉冲电源作为电火花加工系统中的关键核心部