论文部分内容阅读
支持向量机(Support Vector Machine, SV M)是一种近年来受到广泛关注的机器学习方法,它以统计学习理论(Statistical Learning Theory, SLT)为基础、以结构风险最小化(Structured Risk Minimization, SRM)为目标、以核方法(Kernel Methods, KM)为手段、以支持向量(Support Vector, SV)为结果,具有坚实的理论基础、简洁的数学表示、标准的训练算法和良好的泛化性能,目前在诸如模式识别、函数估计、图像处理、时间序列预测和生物信息学等诸多领域得到了成功的应用。然而,随着计算机网络、传感技术、通讯技术等的迅猛发展,数据的复杂性膨胀趋势日益加剧,传统支持向量机模型已经无法满足现实各种复杂数据分析与处理的应用需求。因此,结合新的数据分析与处理技术进行支持向量机的优化建模,提高其对复杂数据处理的性能是支持向量机研究中一个十分重要的方向。本文将统计学习理论、支持向量机方法与粒度计算理论、层次结构模型、主动学习方法等理论和方法有机结合,系统地对支持向量机进行优化建模,提出了多种支持向量机的优化学习方法,解决了传统支持向量机对于大规模、深层次、多类别、非平衡等复杂数据无法高效学习的问题。本文的研究工作主要包括以下内容:(1)将粒度计算理论与支持向量机模型有机融合,建立粒度支持向量机优化模型和学习机制,提高了支持向量机的学习效率,对大规模数据进行高效挖掘。具体地,提出了基于核方法的粒度支持向量机优化方法,将粒划分、粒计算、粒评价等任务与核方法结合起来,有效解决了粒划过程和支持向量机训练过程样本分布的不一致性,提高了模型测试精度。其次,提出了基于混合度量的粒度支持向量机方法,通过混合粒划分提取包含重要信息的信息粒进行训练,根据训练结果对超平面进行更新,在保持较高学习效率的同时提高了泛化性能。(2)将层次结构模型应用于支持向量机训练过程,建立动态层次支持向量机优化模型,提高了其学习效率的同时使支持向量机在不同认知层次上处理问题,更接近于现实世界人类处理问题的方式。具体地,首先提出了动态层次划分方法,即根据样本分布进行动态层次划分,从而根据不同的认知层次、不同的精度需求、不同的样本重要性来在粒度层次上进行信息抽取。在此基础上,提出了基于动态层次划分的支持向量机分类方法和回归方法,该类方法能够在不同层次上动态提取重要的分类或回归信息,以减小模型泛化误差,在保持较高学习效率的同时提高泛化性能。(3)针对传统支持向量机多分类方法无法解决样本类别标签未知的多分类无监督或半监督分类问题,本文提出一种新的基于主动学习的模式类别挖掘方法,该方法通过样本差异度的衡量抽取最有价值样本,采用专家干预的方式来挖掘隐含在未标记样本中的模式类别,解决未知类别信息的多类数据挖掘问题;在此基础上,构造了主动多分类支持向量机学习方法,通过对未标记样本类别的挖掘,解决大规模的无标签多分类问题,同时针对传统多分类问题的特性和不足,根据样本的排斥度、兼容度和模糊度,有效提取多分类过程中的最有价值样本,从而使得优化模型能同时获得较小的标记代价、较高的学习效率和较优的泛化性能。此外,本文还设计了主动多分类在线支持向量机学习方法,提高优化模型处理在线多分类问题的性能,可在网页自动分类、适时疾病疫情检测等重要领域得到应用。(4)针对现实世界中大量存在的非平衡分类问题,本文提出了面向非平衡数据的支持向量机优化模型,提高了支持向量机处理非平衡数据问题的性能。具体地,一方面在引入非平衡划分和信息提取的基础上,设计了基于采样的非平衡支持向量机学习方法,即采用划分得到的重要启发信息对多类样本进行压缩,增大训练样本分布的平衡性,提高模型对少数类样本的识别能力。另一方面通过设计非平衡的粒划分并衡量粒的支持度和分散度,在此基础上构造平衡因子,并将其引入支持向量机的优化问题,提高模型处理非平衡数据挖掘问题的性能,并在蛋白质序列关系检测中得到了成功应用。本文研究的内容是统计学习理论和支持向量机领域研究的重要内容,是粒度计算理论、层次结构模型等的具体应用,同时也是解决多分类问题、非平衡数据挖掘等问题的全新途径。面向复杂数据对支持向量机进行优化建模不仅对支持向量机的理论和模型研究具有重要意义,同时也进一步凸显出统计学习理论和支持向量机方法在实际复杂数据挖掘问题中的应用价值。