基于快速多项式核的分类算法研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:woai2011ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘的迅猛发展,大数据广泛存在于工程应用之中,如互联网数据、医疗数据和图像数据等。这些海量数据的到来使得预测通常变得更加精确。与此同时,它们也带来了一系列的科学挑战,例如存储瓶颈、算法的可拓展性和可解释性等。在大数据时代背景下,我们需要开发高效的机器学习算法来克服海量数据所带来的挑战。我们熟知分类问题在数据挖掘中是一项十分重要的任务,也是机器学习领域中重要的研究内容之一。它在我们现实生活中的应用也非常广泛,比如垃圾邮件识别、手写数字识别、人脸识别、语音识别和推荐系统等。现有可扩展性的分类算法主要包括分布式SVM、局部化SVM等。虽然这些分类方法可以有效降低SVM的计算复杂度,但是它们的性能对所涉及的参数较为敏感,因此它们需要精细的参数选择策略,这通常会在训练过程中带来巨大的计算量。此外,这些分类算法中大多数都缺乏对泛化能力的理论验证。因此,开发具有理论保证的可扩展性分类算法不仅具有重要的科学价值,而且对于当前大数据背景下的算法研究具有重要的实际意义。本文主要聚焦于具有可扩展性的分类算法研究。区别于支持向量机(SVM)的最大边际原理,本文提出了一种新的高效分类算法,称为快速多项式核分类算法(FPC),来克服算法的可拓展性和存储瓶颈所带来的挑战,并提出其相应的分布式版本用于处理具有更大数据规模或在分布式数据环境下的分类任务。本文的主要贡献如下:(1)我们主要利用多项式核构造出合适的特征映射将数据投影到具有“适度维度”的特征空间,并采用带有乘子的交替方向方法(ADMM)来快速求解相应的分类模型,从而提出快速多项式核分类算法。(2)从理论上,我们在常见的噪声假设下建立算法相应的学习率。(3)从实验上,我们进行了一系列的仿真实验和实际数据实验来体现算法的有效性并验证相应的理论。实验结果表明,FPC算法可显著降低现有学习算法的计算负担和存储内存,但几乎不降低其泛化能力。此外,一系列的实验结果表明所提算法的分布式版本能够进一步有效处理具有更大数据规模或在分布式环境下的分类任务。
其他文献
蔷薇科蔷薇属植物月季(Rosa chinensis Jacq.)栽培历史悠久,分布于我国河北、山东、湖南、云南、四川和西藏等地区。《中国药典》2015年版记载,月季花味甘,性温;归肝经。具有
我国从90年代初期开始经济体制改革,发展证券市场。初期我国证券市场资金体量小,不能满足企业融资需要,同时为了拓展国际业务,企业开始寻求海外上市,发行了B股和H股。双重上市企业就是同时在不同市场发行股票融资的企业。我国发行A、B股和A、H股的企业均为双重上市企业。双重上市企业股票存在同股不同价的现象,影响了融资效率,公司内在价值得不到正确反映,降低投资者资本利用率,引起资源错配。国外学者研究双重上市
目的:探讨磁共振波谱成像(MRS,Magnetic resonance spectroscopic)中1H-MRS用于肝纤维化诊断的可行性,用1H-MRS评价蒙药清肝二十七味丸对肝纤维化患者的治疗作用,并试图找出
局部几何n-连通空间(LGCn(ρ)空间)是通常的局部n-连通空间的一个定量处理.近几十年来,该概念在几何,拓扑及分析领域有广泛的应用.P.Petersen指出(没有证明):如果X是维数不超过n的度量空间,Y(?)X是LGCn(ρ)空间,则在适当的条件下,存在收缩r:X → Y.本文给出了这个结论的一个详细证明,且给出了收缩映射的扭曲常数(distortion)的估计.此外,我们考虑了以LGCn(
图的结构一直是图论研究的重要内容,是图论其他方向研究的基础.图的连通性是图论结构的重要内容之一,可收缩边是研究连通图构造的强有力工具,在归纳证明连通图的性质有非常重要的作用.不存在k-可收缩边的k-连通图称为是收缩临界k-连通图.为深入研究收缩临界k-连通图,人们对其定义进行推广.设G是一个k-连通图,如果G中的任意一个阶不超过m的完全图H都包含在一个k-点割内,则称图G是Cm-临界k-连通图.本
随着油气勘探开发技术的发展和全球对石油需求量的增加,油气业界逐渐由传统简单构造油气藏勘探开发转向更为复杂的岩性油气藏和多类型岩性与构造复合油气藏的探测和开发。由
农业是重要的活性氮(Reactive nitrogen,Nr)排放源之一,随农田氮肥用量的增加,部分氮素不能被作物吸收而以各种活性氮的形式释放到环境中,造成温室效应、水体污染、土壤酸化
由于特殊的热电传输性能,纳米材料在微电子器件和热电转换领域备受人们青睐。研究发现纳米材料与传统的粗晶材料相比具有很多不同的热输运性质,现在已经成为科研学者的研究热点。例如,当晶粒尺寸降低到纳米量级,材料导热性能会随晶粒尺寸的变化而发生变化。晶体缺陷,掺杂等使载热子散射增强,进一步降低热导率,使导热性能恶化。由于纳米材料结构的复杂性,现在纳米材料的导热研究尚处于初步阶段。为进一步研究纳晶材料的热输运
伴随着纳米科学技术的飞速发展,不同种类的新型材料逐渐涌现出来。相对于传统材料,纳米颗粒复合材料不仅有着更高的强度同时还保持着良好的韧塑性,并且还具有特异的导热性能。这些优异的性能归因于纳米颗粒的加入,使得材料的结构组织细化,自身缺陷减小。但是纳米颗粒的尺寸小与或比拟于载流子(声子,电子,光子)的平均自由程,其表现出的性质与传统材料差异很大。因此,深入研究并掌握新兴材料的导热性能成为我们的重点研究方
由于自然风的复杂多变,使得风力机在运行过程中时常处于动态偏航状态。在对偏航工况的研究中,通常采用改变不同的固定偏航角来探究偏航对风力机气动性能的影响,往往忽略了风