基于云平台的并行SVM算法研究与实现

被引量 : 2次 | 上传用户:ljmworkshop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今社会,随着计算机技术的高速发展,互联网应用的不断普及,社交工具的快速发展,产生了大量的信息数据。面对这些互联网以及企业存储的大规模数据,传统单机模式的数据分析方法由于单机计算能力的不足,难以处理和分析超大规模的数据,对于大规模数据集进行处理,并行处理是一种提高数据处理的有效方法,基于Hadoop的并行存储处理数据是目前处理大规模数据集的一种可行的方案。支持向量(Support Vector Machine, SVM)是数据挖掘中基于统计学习的分类算法,它是基于结构风险最小化原理,解决了局部最优以及维数灾难问题,但SVM无法适应于大样本系统,在对大数据进行处理时,训练速度较慢。本文在深入研究了支持向量机方法的基础上,提出了基于MapReduce机制的并行支持向量机方法。根据Hadoop平台MapReduce实现机制的特点,采用类似级联SVM的方法对训练数据进行训练处理。本文所提出的并行支持向量机方法,首先对数据集进行分块处理,使得支持向量机训练集各个类别的数据能够均匀的分布在各个小的数据块中,避免在某些极端情况下训练支持向量机得不到训练结果的情况,分块后,通过级联迭代的方式逐层对每个数据块进行并行SVM训练,最终得到训练模型。在实现了并行支持向量机的基础上,结合Hadoop的HDFS的存储特点和MapReduce计算特点,同时根据SVM训练算法的相应运算特点,对并行支持向量机方法的合理性、正确性、有效性都给出了证明和实验验证,同时将实现的并行支持向量机算法应用到实际数据挖掘项目中,实现基于大规模数据集的支持向量机的分类和预测功能。
其他文献
生产率高的工人理应得到高的工资,即工资依赖于工人的生产率,但在现实经济表明,工人的生产率也依赖于工资,这就是在80年代西方经济学界非常流行的效率工资理论的基本假说。本文首先
随着信息技术的不断发展,人们通过网络从事越来越多的工作和娱乐。但同时,也带来各种类型的安全问题和安全隐患。信息安全问题已成为当代社会的重要问题之一。数字签名技术是
目的找出基本医疗保险制度实施前后影响住院病人的主要因素. 方法采用灰色关联度分析法和 ICD国际疾病分类进行微机汇总库调研. 结果主要影响因素为疑难危重病的收治和门急诊
<正>调查研究工作是领导干部掌握工作情况的基本途径。搞好调研工作,就是要对照群众路线教育实践活动的总要求,贯彻落实群众路线。如何搞好调研工作?我认为应解答好三个问题:
期刊
随着国内和国际上高速列控系统的不断发展,高速列控系统的测试分析研究逐渐成为了人们关注的焦点。在软件测试技术发展突飞猛进的今天,自动测试技术占据着举足轻重的位置。基
本文利用中国家庭追踪调查2010年和2012年数据,运用双重差分方法考察了进入体制内工作对工资水平的影响程度,并考察了其群体异质性和方法稳健性。研究发现,控制其他因素后,中
作为数控机床的关键功能部件,滚珠丝杠副在直线驱动过程中,具有振动小、噪声低、运行平稳和可靠性高的优点,能够满足数控加工较高的动态特性和随动性能要求。加工制造业高速
我国正处于传统农业向现代农业转变的关键时期,随着我国工业化和城镇化进程的加快,农村青壮劳动力和受教育人口大量流失,现代农业发展和新农村建设面临人才匮乏的局面。因此,
随着计算机技术以及网络通信技术的迅猛发展,基于Web的信息管理技术得到了广泛的应用,使得人们可以借助互联网实现在线办公。本文所实现的流动人口管理系统正是基于B/S结构进
近年来我国高新技术产业取得许多成就,但仍存在地区发展不平衡、产品附加值低、企业规模普遍偏小,持续创新能力不足,投融资体系不健全等问题.作为“全国科技进步考核先进市”