面向支持向量机的特征约简研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wenxiaoyao1214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machines, SVM)是一种高效的分类方法。支持向量机虽然能克服维数灾难问题,但如果直接使用原始数据集对其进行训练,可能因为计算量大而导致训练无法进行,也可能使分类器精度达不到理想的效果。在现代生物和医学等应用领域,数据集的维数常常达上千维甚至更高,而样本集的大小却有限,支持向量机的学习效果可能不会很理想,而且计算时间比较长。对于分类目标,原始数据集的部分特征或是不相关的或冗余的,甚至是噪声,对这些特征进行约简不会降低分类精度。特征约简对于分类器的构造至关重要,挑选一组对分类有影响或影响很大的特征,可以限制分类器特征的个数,从而改善分类精度,加快学习模型的构建时间,而且从少量的特征集得到的分类模型更加易于理解。目前,关于特征约简的方法较多,常用的方法大多基于关联度、信息增益和F-score。对于支持向量机的分类精度来说,这些约简方法的效果如何没有系统比较。在研究上述三种特征约简方法的基础上,开发了面向支持向量机的特征约简系统,对上述三种约简方法进行了实验验证,在此基础上建立了多组支持向量机学习模型。实验分别使用了2组临床应用数据集、6组UCI数据集及3组高维文本数据集。实验结果表明,通过对特征进行约简后建立支持向量机,可以明显地加快支持向量机的学习速度,同时可以有效地改善模型的分类精度。
其他文献
作为一项关键的多媒体数据分析技术,说话人识别被广泛地应用于事务访问控制、身份验证、执法、语音数据管理,以及音频监控等领域。其中,i-vector作为一项有效的说话人识别技
Web Services的简单性、开放式标准、灵活高效性、可扩展性等优点使其得到了各企业、组织和机构的广泛关注和使用。而Java ME技术呈现的高灵活性和可靠性,在解决移动设备与企
随着计算机的广泛应用和发展,联机手写汉字识别以操作其简单方便得到了极大的关注。联机手写汉字识别的原理是通过手写板捕获书写的轨迹并进行汉字识别。但由于汉字字库庞大,
随着微电子技术、计算技术以及无线通信技术的进步,低功耗多功能的传感器得到了快速发展,随后,无线传感器网络被广泛地应用于军事、环境与火灾检测、交通管理等领域。数据的
近年来,由于计算机应用技术的高速发展,人们获取数据的能力得到极大的提高,数据流作为一类重要的数据来源,受到越来越多的关注,基于数据流模型的聚类算法已成为重要的前沿课
随着Internet的迅速发展,基于P2P技术的各种网络应用越来越广泛,其中影响最大的应用是文件共享。BitTorrent是当今Internet上非常流行的P2P文件共享工具,它能够快速、有效地
随着社会的发展,人们生活水平的日益提高,人们对于家居的门禁系统的安全性和可靠性的要求也越来越高。传统的机械锁由于机械结构简单,安全性低,容易遭到暴力破坏等特点已经不
随着嵌入式计算机技术的发展,嵌入式计算机应用的领域不断的扩大,除了在一些民用领域,嵌入式计算机在航天、军事、工业等特殊领域的应用也逐渐提高。与此同时,嵌入式计算机所
大型应用软件往往非常复杂,而一般的软件架构设计缺乏有效的模块复用,导致软件内部很容易出现功能模块冗余和无法满足快速开发业务新需求功能等问题。而SOA软件体系设计架构则
当今社会信息技术飞速发展,计算机被应用于生产和生活的各个领域。计算机存储设备中的一些敏感信息的安全,不仅影响计算机的稳定运行,而且会危害计算机用户的利益。因此研究