基于广泛内核的CVM算法研究及参数C的选择

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:uj_mosquito11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是近年来流行的机器学习方法,建立在结构风险最小化原则的基础上,因此能够较好地处理小样本情况下的学习问题。然而在支持向量机算法的大样本学习应用中,存在着三大必须解决的问题:算法速度问题、支持向量存量问题和算法参数选择问题。目前主流的支持向量机优化方程和训练算法难以同时满足速度快、内存占用少并且支持向量少的要求,主要困难在于支持向量机训练过程中支持向量个数太多。核向量机是支持向量机的一个重要改进,可以极大减少支持向量的个数,但是仍然存在内核限制,泛化能力低等缺陷。所以本文在分析了支持向量机的基本理论和基本性质的基础上,针对核向量机算法的缺点和不足,提出基于广泛内核的核向量机算法和基于核聚类的相对距离比较方法,克服了现存算法存在的缺陷,提高了支持向量机的训练与分类效率。首先针对最小闭包球问题的内核限制问题,分析了最小闭包球和中心约束闭包球之间的关系;在此基础上,针对最小闭包球问题的二次规划问题,提出新超球的球心和半径的更新方法,从而得到新的基于广泛核的核支持向量机算法;从理论上证明了基于广泛核的核支持向量机算法的收敛性,并给出了该算法的时间复杂度和空间复杂度。其次针对已有的参数C选择算法缺乏启发性以及选取困难的不足,本文在分析了核聚类算法和距离比较算法的基础之后,提出基于核聚类的相对距离比较方法。该算法利用核聚类算法在特征空间对样本点进行聚类,然后根据每个样本点到聚类中心的距离的比值,得到参数C。本文在理论方面,证明了该算法的收敛性,分析了算法的复杂度,选取的参数提高了核支持向量机算法的泛化能力。最后,本文在Linux环境下进行实验,从CPU运行时间、核向量集的大小及测试准确率三个方面,分别分析比较核向量机、简单核向量机和基于广泛内核的核向量机三个算法;分别利用交叉验证法、结构风险法和基于核聚类的距离计较方法选择参数C ,然后分析比较算法的预测准确率。实验结果表明,基于广泛内核的核向量机去除了内核的限制,降低了算法的复杂度,并提高了算法的泛化能力;基于核聚类的相对距离计较方法可以选取合适的参数C ,提高算法的性能。
其他文献
本文以无线传感器网络为研究背景,主要研究在以数据为中心的存储策略(Data-Centric Storage,DCS)中如何高效利用传感器节点的有限能量进行数据查询的问题,设计了划分区域的DC
在互联网环境下,产生了大量的图像文件数据,为了提供这些图像文件信息的检索和分析,首先要解决检索过程中索引存储问题,而目前已有的图像文件信息检索引擎的检索效率和精确度
ADSL作为目前国内最流行的互联网宽带接入方式之一,通过一条普通电话线,可以向用户提供512K到8M带宽不等的宽带接入,让用户尽情享受网络学习、视讯会议、可视聊天、视频点播、在
作为一种很重要的自动验证技术,模型检测已得到广泛研究,取得了丰硕的成果并应用到众多领域,引起学术界、工业界的密切关注。模型检测的一般原理是用状态迁移系统( M )表示系
随着计算机技术与教育理论的不断融合促进了计算机辅助教育的发展,计算机辅助测试作为计算机辅助教育的重要部分而受到越来越多的关注。在计算机辅助测试系统中,组卷模块的设计
近年来,计算机视觉技术在水果图像识别方面得到了广泛的研究和应用,但随着经济的快速发展,人们生活的提高,农贸市场和超市里售卖的水果品种越来越多,而且其形状,纹理和大小都
体育比赛的主办方为了充分发掘广告带来的商业利润,总是希望尽可能地在比赛场地周围放置更多的广告牌。但是在实际的比赛现场,出于保护运动员和保证观众观看质量等方面的考虑
在无线传感器网络(WSN)的应用中,物理信息与位置信息关联才具有实际的运用价值,由此无线传感器网络节点的位置信息至关重要,是传感器网络研究的难题及热点。本文以导航系统的
本文把目前流行的粗糙集属性约简算法运用到销售数据的离群检测与分析。离群数据挖掘是数据挖掘的一个分支,目前在很多领域得到运用,挖掘出来的数据不再是当作噪声数据去掉,
随着云计算技术的深入发展,越来越多的企业通过构建虚拟化数据中心提供公有云服务,或者搭建面向企业内部的私有云平台。因此,云计算数据中心的数量大幅增加,服务器规模也快速