基于Flink平台并行SVM算法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:gideonkim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的降临,信息技术发展上升到了一个新的历史阶段,影响着社会生产模式和人们生活的方方面面。智能移动设备、智能家居产品都在不停地生产数据,大量数据中也隐藏着巨大的利益价值。传统数据挖掘算法在大规模数据集上训练模型时,会出现训练效率不高,因此对传统数据挖掘算法的改进变得刻不容缓。支持向量机(Support Vector Machine,SVM)对比其他常用的数据挖掘分类算法,在算法训练过程中很少会出现过度拟合、属性特征过多造成的维数灾难对算法性能影响微乎其微、对核函数运用巧妙,可以让算法处理数据集线性不可分的情况。但是传统单机支持向量机并不能高效的处理大数据集,其算法运行过程中会出现训练速度慢,内存溢出,运行崩溃等性能低下问题。针对单机SVM算法面对大规模数据集处理效率低下等问题,将算法与并行计算的思路相结合,结合目前主流的大数据计算框架Flink,设计基于Flink平台并行SVM算法,解决单机SVM算法训练效率不高的情况,通过实验表明,在精度损失低的情况能大幅度提高算法训练速度,降低训练时间。论文的主要内容如下:(1)针对单机全局网格搜索算法寻优速度慢的问题,根据大数据“分而治之”的思想,将全局参数对文件切分成若干小块交给各个计算节点并行寻优,最后汇总寻优结果,选取最优参数,相比较单机全局网格搜索算法,基于Flink并行网格搜索算法提高了寻优速度,降低寻优时间。(2)结合层叠和分组训练SVM算法的优缺点,设计基于Flink并行SVM算法,通过优化并行操作算子的性能引入分布式广播变量,优化算法,有效解决单机SVM算法训练效率低的问题,在精度略微丢失的情况下,能大幅度提高训练速度,有效的减少了训练时间。(3)总结本文所做工作和科研中存在的不足之处,并对实时机器学习思想进行展望。
其他文献
材料基因组倡导发挥材料大数据的作用,采用机器学习变革材料研发文化。铝硅合金(Al-Si)具有强度高、耐磨性好且热膨胀系数小等性能特点,广泛应用于汽车、航天和电子工业中。Al-Si合金性能主要由合金微观组织中初晶Si相的形状及大小决定。目前,由于试验费用太高,时间成本巨大,微观组织图像的获取较为复杂,但它存在于公开发表的文献中。因此,本文采用深度学习方法从Al-Si合金文献中提取插图及标题,并筛选出
虚拟试衣能有效增强用户的网络购物体验,准确理解着装人体图像中以人为中心的语义区域,对辅助虚拟试衣起着重要作用。但由于着装人体图像服饰繁多,姿态各异,具有丰富的纹理和复杂的背景,使得准确理解图像变得困难。本文针对着装场景中人体姿态、边缘轮廓、服装配饰的复杂性以及人体部位关节点的遮挡等因素,导致人体解析结果不够精确的问题,结合边缘轮廓、姿态特征和粗解析特征,通过定义的结构损失和人体解析损失的组合函数进
身处互联网浪潮之中,各式各样的信息在日常生活中以爆炸似的速度飞速增长。从大量信息中快速准确获取用户需要的信息日渐成为人们的迫切需求和研究者们关注的热点,因此信息抽取技术应运而生。关系抽取隶属于信息抽取,是其中的一个子任务,人物关系抽取又是其中一个具体的研究方向。新闻文本作为当下人们获取信息的主要来源之一,大多以非结构化或半结构化形式分散于繁杂的互联网资源中,这些文本中可能包含了大量的人物实体及人物
森林结构参数,如树高、冠幅、胸径和树冠体积等,不仅是评估森林生长状态、空间结构及生态功能的重要指标,也是分析全球森林生态系统碳平衡的基础。其中,树高是森林资源调查的重要参数,常常被用于立地质量与树木生长状态评价、树木材积与生物量估计。机载激光雷达(Airborne Light Detection and Ranging,ALiDAR)能够主动发射激光能量脉冲,在一定程度上穿透密集植被冠层,快速获取
随着液晶显示器需求量的与日俱增,显示器的生产效率就显得尤为重要。提高显示器装配线的机械自动化程度可以显著提升显示器的生产效率,同时也可以减少人力成本的投入。液晶显示器在自动化装配过程中的夹紧定位装置伴随整个装配过程,是自动化生产线的重要装置。本文针对显示器自动化装配线设计了一种基于连杆机构的对中定位夹具。首先,在对夹具使用需求分析的基础上,确定了夹具的机构形式;并采用约束优化设计方法对连杆机构的具
脑-机接口(Brain-computer interface,BCI)是通过解码用户神经系统变化意图的变革性人机交互技术,其可以补充、修复、增强,甚至部分替代原有人正常神经功能的活动,在很多领域,其应用前景广阔。情绪研究就是其中的一个热门方向,负性情绪对个体的生活与工作有或多或少的影响。本文在研究情绪调节上,引入了基于功能近红外光谱(functional near infrared spectro
语音端点检测的目的是从语音信号中区分出语音段(有声段)和非语音段(无声段),但是语音信号中往往会伴随着各种噪声,噪声的存在直接影响了端点检测的性能。本文从基于特征参数的语音端点检测方法出发,对噪声环境下的语音端点检测展开研究,具体的研究工作包含如下方面:一、针对基于单特征的语音端点检测方法所用特征在低信噪比环境下鲁棒性不佳的问题,本文将语音信号Gammatone频率倒谱系数(Gammatone F
太阳暗条存在于日冕中,是由低温高密度的等离子体组成。强烈的暗条爆发活动会影响地球磁层,严重时将导致通信设备受损,造成通信中断、航空运输导航失效等。此外,暗条作为太阳大气磁场的示踪,对暗条进行研究有助于探究太阳磁场的结构和演化规律。因此对暗条准确地检测作为相关研究的基础和前提,具有重要的科学意义。针对现有的暗条检测方法存在数据集不准确、检测结果精度不高,弱小暗条错检、漏检等问题,本文首次结合太阳磁图
刀具磨损状态监测技术是先进制造技术中的重要组成部分。刀具磨损的实时监测对于提高产品质量,降低制造成本和提高生产效率具有重要作用。然而,该技术发展至今,仍然不能够真正应用于实际加工中,也未能很好地解决变工况加工条件下精确识别刀具磨损状态的问题。为此,本文通过对车削刀具磨损状态监测技术的研究,建立了基于多特征融合和多数投票法的车削刀具磨损状态识别模型。主要研究内容及结果如下:首先,对刀具磨损状态监测的
脑-机接口是一种变革传统人机交互的技术,其中情绪脑-机接口是一类重要的脑-机交互,可望为情绪的调节、监测或评估提供定量的方法,有潜在的重要应用价值。然而,情绪相关的EEG信号特征提取与识别尚未彻底解决,面临许多挑战,因此,本文基于运动调节情绪的方式,探索合适的情绪诱发实验范式,分别提取情绪相关EEG信号的时域、频域、时-频域和空域的特征,并进行情绪相关EEG信号的特征筛选,从而筛选出与情绪密切相关