基于Hadoop的SVM算法优化及在文本分类中的应用

来源 :北京邮电大学 | 被引量 : 21次 | 上传用户:jf_long
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,各行各业都产生了海量的数据,如何从这些数据中获取有意义的信息成为一个亟待解决的问题。对于大规模数据集,原始的数据挖掘算法处理能力有限。支持向量机(Support Vector Machine,SVM)很少过度拟合。并且,对于线性不可分数据集或特征向量维数很高的数据集,支持向量机算法的分类正确率相对比较高,适合于文本数据集。但是对于数据规模比较大的情况,支持向量机算法的计算复杂度高、运行时间比较长。因此本文结合目前热门的云计算平台Hadoop,提出一种基于Hadoop MapReduce的并行层叠支持向量机方法(Parallel Cascade Support Vector Machine,PCSVM)。该算法采用类似级联的方法,基于MapReduce模型将数据分成多个子训练集,并分层级联,对每个子数据集进行并行训练,得到支持向量集,从而得出分类模型。在并行训练过程中,为了减少训练样本的分布差异过大而对分类产生的潜在影响,该算法还采用了反馈的方法对得到的分类器进行优化。实验结果表明,基于Hadoop的并行层叠支持向量机算法在确保较高正确率的条件下,能够有效减少训练时间,提高分类速度。Spark是轻量级的快速云计算平台,它不需要多次读写Hadoop分布式文件系统,更适合迭代运算比较多的情况。因此,本文又提出了基于Spark的并行支持向量机方法,该方法采用一种基于预设的微型批量并行梯度下降算法(Budgeted Mini-Batch Parallel Gradient Descent, BMBPGD)。BMBPGD算法采用去除预设的维护方法来保持支持向量的数量,它具有恒定的空间和时间复杂度。实验结果表明,在Spark环境下,BMBPGD算法比Spark自带的机器学习库MLlib中的SVMWithSGD算法精度高,并且比经典算法LibSVM花费时间短。本文还介绍了实验室开发的大云并行数据挖掘(Big Cloud Parallel Data Mining,BC-PDM)系统,将并行支持向量机算法集成到该系统中。本文会详细说明并行支持向量机算法的集成过程,以及对文本数据使用BC-PDM系统中并行支持向量机模块进行分类的详细过程。
其他文献
本研究通过借鉴卢家楣关于情感目标教学体系的原则,从情感教学心理学原理出发,结合三年制专科临床医学专业培养目标的要求及学生的情感发展,结合药理学课程的课程特点,在校本药理
在中国城市化的背景下,生态旅游业、现代农业相结合形成的新型产业得到了迅速发展,农业生态园成为城市居民旅游、观光、休闲、科普的好地方。在大力倡导“生态文明”和“美丽
当今社会,信息量的急剧增长使得无论是企业还是个人对于信息和知识的有效管理都严重滞后。用于解决信息和知识管理混乱问题的各种软件应运而生。作为知识管理的重要组成部分,
目的:分析护理质量管理对医院感染及护患纠纷的作用。方法:选取2018年4-12月的住院患者68例,随机分为两组,各34例。对照组接受常规护理,观察组接受护理质量管理。比较两组医
阐述了会计职业道德的具体内容,进而构建了会计职业道德评价的内部评价、外部评价和自我评价标准,最后建立了综合的会计职业道德评价标准。
<正> 第四讲植物线虫病及其发生危害现状线虫和植物线虫病及其危害状况是人们比较生疏的一个问题。那么,它究竟是怎么一回事呢?在此,我们向读者作一简单介绍。
目的:分析优质护理服务在门诊输液护理中的应用效果。方法:选取2018年1-12月门诊输液患者122例,按照进入门诊顺序分为两组,各61例。乙组给予常规护理,甲组在常规护理基础上给
目的:对护理不良事件进行调查并提出有效的管理方法。方法:随机选取临床护士202名进行问卷调查,对调查问卷进行统计分析,并提出相应的管理办法。结果:通过实行惩罚性与非惩罚
目的:探讨分层护理管理模式在临床护理中的应用效果。方法:抽取6个科室住院患者400例,随机分为两组。对照组给予常规护理,观察组实行分层护理管理模式。比较两组护理效果。结
面向快速城镇化进程中乡村地域日益复杂的人地关系,乡村重构成为地理学研究的重要前沿课题。乡村重构即行为主体通过优化配置和有效管理影响乡村发展的物质和非物质要素,重构