基于Hadoop平台的机器学习分类算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：yangguaiguai

【摘要】

：

分类算法作为机器学习领域中重要研究内容,被广泛地应用于风险管理、用户画像、图像识别等场景。在实际应用中,K最近邻算法、逻辑回归算法、BP(Back Propagation)神经网络算

【作者】

：

惠冰

【出处】

：

西安电子科技大学

【发表日期】

：

2018年期

【关键词】

：

Hadoop 机器学习分类算法 K最近邻算法逻辑回归算法 BP神经网络算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类算法作为机器学习领域中重要研究内容,被广泛地应用于风险管理、用户画像、图像识别等场景。在实际应用中,K最近邻算法、逻辑回归算法、BP(Back Propagation)神经网络算法是最常用的分类算法。然而,在面对海量数据冲击时,这三种分类算法对内存、数据传输、数据存储要求严苛。普通商用计算机设备已不能满足海量数据处理分析需求。Hadoop平台是一种分布式计算框架,以其优异的性能成为海量数据批量、离线、非实时处理分析的最佳选择。Hadoop平台上MapReduce计算模型被用于改造提升传统机器学习分类算法,使其能够处理分析海量数据。Hadoop平台上的HDFS(Hadoop Distributed File System)分布式文件系统为海量数据存储提供解决方案。本文立足于设计、论证基于Hadoop平台的机器学习分类算法,旨在解决海量数据处理分析需求,主要完成以下工作。(1)为解决现有算法中间数据传输量大的问题,优化了基于Hadoop平台的K最近邻算法。优化后的算法在Map阶段,通过传统K最近邻算法得到测试样例的初步类别预测,在Reduce阶段,通过多数投票法得出测试样例的最终类别预测。为解决K最近邻算法中超参数K不易确定的问题,给出在一定取值区间内对不同K值进行迭代,选择出使算法性能最优的K值的解决方案。为解决超参数距离度量方式不易确定的问题,给出通过控制变量对多种距离度量方式进行实验,选择出能够让算法泛化能力最优的距离度量方式的解决方案。(2)为解决现有算法只能输出模型参数的问题,优化了基于Hadoop平台的逻辑回归算法。该算法在Map阶段,通过传统逻辑回归算法和每个Map节点上训练样例,在Map节点上学习出基本分类器,利用各Map节点的基本分类器对测试样例的类别进行初步预测,在Reduce阶段,对Map节点上基本分类器输出结果求均值,得到测试样例的最终类别预测。(3)为优化现有算法的运行效率,给出了基于Hadoop平台的BP神经网络算法的优化方案。优化后的算法在Map阶段,利用输出误差阈值和迭代最高值作为终止迭代条件训练本地网络,在Reduce阶段,利用迭代最高值作为终止迭代条件控制全局迭代。通过对各Map节点的网络模型参数多次求均值得到最终的网络模型参数。(4)对现有基于Hadoop平台机器学习分类算法进行了总结、梳理、分析。利用多组数据集实验,对比分析现有同类型算法和本文所优化的基于Hadoop平台的K最近邻算法、逻辑回归算法、BP神经网络算法的运行时间、泛化能力、加速比等性能指标。实验结果表明本文所优化的算法具有良好的泛化能力和运行效率,可被用于海量数据的分类预测。

其他文献

检察机关实现管理科学化的路径解读

近年来,各地检察院在检察管理方面进行了很多有益的探索,为科学配置有限的检察资源发挥了重要作用。但同时也暴露出一些问题。青州市人民检察院根据形势发展需要,结合自身实

期刊

检察机关管理科学化

教师管理政策与教师教育政策一体化探析

在中国教师教育改革中,教师教育相关政策和以教师资格制度、教师聘任制度、教师评价制度和教师绩效工资四项管理政策为代表的教育管理制度逐渐形成。由于教育管理对教师教育

期刊

教师管理教师教育政策一体化

静脉补液联合中药治疗妊娠恶阻的临床观察

目的：观察静脉补液联合中药治疗妊娠恶阻临床效果。方法：将妊娠患者随机分为对照组（46例）单纯给予静脉补液;观察组（55例）在静脉补液的基础上配合中药口服;治疗7d后观察两组疗效及酮

期刊

妊娠恶阻肝胃不和中药抑肝和胃

武警后勤科研的情报服务模式

提出了武警后勤科研的情报研究所在明确职能定位、了解科研信息需求变化的基础上,拓宽信息资源获取渠道,开展用户需求的知识服务,建设面向学科的复合型情报服务团队,以贴近科

期刊

资源建设知识服务情报研究军事后勤

联合吸入噻托溴铵及沙美特罗替卡松对稳定期COPD患者血清炎症细胞因子及肺功能的影响

目的探讨联合吸入噻托溴铵及沙美特罗替卡松对稳定期重度、极重度COPD患者血浆炎症细胞因子及肺功能的影响。方法选取我院呼吸科门诊就诊的稳定期重度、极重度COPD患者80例,

期刊

沙美特罗替卡松噻托溴铵慢性阻塞性肺病炎症细胞因子肺功能

马钱子碱对人肝癌细胞HepG2细胞膜电位和通透性的影响

目的探讨马钱子碱诱导HepG2细胞凋亡效应是否涉及其细胞膜通透性和细胞膜电位（MP）的改变，研究其抗肿瘤的分子机制。方法以HepG2细胞为体外模型，采用吖啶橙／溴乙啶复合荧光染色通过

期刊

马钱子碱肝癌细胞HepG2细胞膜电位通透性激光共聚焦显微扫描术

端砚，古老产业的传承与重生

随着中国经济的腾飞,百姓对美好事物的追求,从古代读书人渴望拥有的一方简朴上佳的端砚,到风格造型日益丰富,纹饰更为生动多元的收藏精品,而今,端砚文化传播越来越广,衍生产

期刊

制作技艺肇庆市端砚文化中国砚都

人民币汇率与股票市场信息溢出效应分析

本文以2005年7月21日至2018年12月31日的人民币兑美元汇率和上证综合指数作为样本,并以2007年4月4日(次贷危机)和2015年8月11日("8.11"汇改)为节点,运用基于交叉相关函数CCF

期刊

人民币汇率股票市场信息溢出Granger因果检验

山区公路长大纵坡段沥青路面结构疲劳损伤研究

在我国山区公路的建设中,由于受到地形以及公路成本的限制,不可避免地存在许多长大纵坡路段,部分路段纵坡坡长和坡度甚至超出了现有的公路工程技术标准中规定的最大值。与一

学位

长大纵坡沥青路面力学响应疲劳损伤温度场

真空等离子体渗硫钢领性能特点及应用

探讨真空等离子体渗硫钢领性能特点及应用情况。介绍该型钢领制作原理，表征了钢领内跑道表面形貌，并进行了摩擦磨损试验、钢领的纺纱气圈形态试验，就该铜领性能指标及纺纱使用情

期刊

等离子体渗硫钢领磨损率纺纱气圈形态摩擦因数

基于Hadoop平台的机器学习分类算法

其他学术论文