Hadoop平台下的分布式SVM算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:haoz8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术的发展,数据的规模也随之增长。通过各种方法收集的原始数据(即非结构化数据)的指数增长迫使公司必须改变其业务战略和运营方法。越来越多的公司的收入战略完全基于在数据中获得的信息和对数据的利用。管理和处理大规模数据集(也被称为“大数据”)需要新的方法和技术,但存储和分析不断增长的数据量也带来了新的技术挑战。支持向量机分类器因其良好的泛化能力而成为机器学习领域中非常强大和被广泛接受的分类器。然而,由于支持向量机具有较高的计算复杂度,不适用于大规模数据集。对于大型数据集,计算和存储需求大大增加。本文针对支持向量机(SVM)在处理大型数据集时其计算复杂度和存储要求极大地增加等问题,通过实验对Hadoop集群下的单节点SVM和多节点SVM两种算法进行性能分析,并利用MapReduce编程模型实现,解决了经典SVM在处理大规模数据集时效率低的问题。MapReduce是一种适用于大规模数据集的分布式编程模型,它通过将较大的数据集划分成较小的数据块来并行处理大规模数据集。实验结果表明,与大型数据集的单节点相比,具有多节点集群的SVM在处理大规模数据集时所花费的计算时间较少,可有效加快训练进程。
其他文献
高铁震源作为一种新型震源,具有易收集、无污染、规律性强、重复性高等优点,通过研究高铁振动,分析振动特征,对高铁振动的传播规律有着更深入的了解。鉴于提高高铁振动信号在
简述叠前数据可视化研究的必要性,介绍了三维数据可视化的基本原理及特点,探讨可视化技术在3方面的应用:(1)高效采集数据的可视化;(2)高密度空间采样数据可视化;(3)不同类型
随着无线通信系统的发展,对射频电路的尺寸和功能提出了越来越高的要求。作为射频系统的两类重要的无源器件,滤波器和功率分配器也得到了学者们的充分的研究。这两款器件经常
木麻黄(Casuarina equisetifolia)是海南岛乃至我国南方海岸防护林主要的建群树种,具有抗风性能强、耐土壤贫瘠及生长较快等特性,而多项研究发现木麻黄林往往存在诸多问题,如
环烷烃是石油化工产品中大量存在的一种重要的碳氢化合物,其氧化产物主要有环烷酮、环烷醇、环烷基过氧化氢和相应的二酸等。它们广泛应用在食品、染料、医药、农业、润滑剂
模糊图像复原是数字图像处理中很重要的一个分支,在军工业、医疗诊断、交通监控等行业以及日常活动和学习中都有大量的应用。近年来模糊图像复原越来越被学者们重视,经过大量的实验研究探索后取得极佳的成绩。但是他们使用的大部分算法都存在一些缺陷,例如计算过程复杂、算法效率低、处理大尺寸的点扩散函数(PSF)效果较差,并且有些算法在复原图像时会出现严重的振铃现象。因此现阶段图像复原技术与预期效果还存在很大差距。
通过一步法向烯烃碳-碳双键引入两个不同的官能团是有机合成中重要的反应过程。无金属参与的烯烃直接双官能团化反应由于其简单易行、成本廉价的优点受到越来越广泛的关注,这
我国冬小麦约70%分布在干旱、半干旱地区,播种季节及苗期易遇到干旱胁迫,严重影响小麦幼苗的生长,最终引起小麦产量和品质下降。因此,深入理解小麦苗期抗旱机理可以为品种选
我国对农村经济发展状况的重视大概是从上世纪80年代开始,先后提出家庭联产承包责任制、农村合作经济,再到出现农业产业化,我国农业可谓发生了翻天覆地的变化。1978年十一届
映秀湾水电站坐落于为山区河流的岷江河段,当暴雨季节时,会有大量泥沙汇入河流从而进入发电水体,对水轮机过流部件造成磨损破坏。本研究就针对映秀湾水电站,对运行后的真机进