KNN分类算法的MapReduce并行化实现

来源 :南京航空航天大学学报 | 被引量 : 0次 | 上传用户:zzt00007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高k-nearest neighbor algorithm(KNN)算法处理大数据集的能力,本文利用Map Reduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Map、Combine和Reduce 3个函数,实现了KNN算法的并行化。Map函数完成每个测试样本与训练样本之间的相似度计算,Combine函数作为一个本地的Reduce操作,用以减少中间计算量及通信开销,Reduce函数则根据上述函数得到的中间结果计算出k近邻并作出分类判断。实验结果表明:较之以往的单机版方法,在Hadoop集群上实现的并行化KNN算法具有较好的加速比和良好的扩展性。
其他文献
文章通过对安徽产业结构演进的实证分析及现阶段存在的问题,提出安徽省在正确选择主导产业,大力发展高新技术产业的同时,加速融入“长三角”经济圈,建立利益协调机制,从而加
研究背景及目的:系统性红斑狼疮(SLE)是一种多因素多环节参与发病的异质性自身免疫性疾病,其免疫学特征为机体对自身抗原的免疫耐受缺失,从而导致多克隆自身反应性T、B淋巴细
2010年,温家宝总理在《政府工作报告》中指出:“强化行政问责,对失职渎职、不作为和乱作为的,要严肃追究责任。”强化政府官员的责任,建设责任政府已经成为中国政治体制改革的
本文以消费主义文化时代为研究背景,以女性主义为切入角度,以流行影视剧为研究对象,从一个全新角度展开探索,对流行影视剧传播的过程进行理论化、系统化的分析,对流行影视剧
对象征性观念在现代舞教学中的培养进行分析,能够有效提高现代舞的教学质量。基于此,本文将对现代舞的发展历程进行简单介绍。其次,对现代舞中的象征性艺术进行分析,最后对象
采用水培的方法研究了黑麦草对铜-芘复合污染水体的植物修复,主要内容包括:黑麦草对铜-芘复合污染水体的修复性能、铜和芘在黑麦草体内的积累、复合污染对植物生理生化的影响
为了解决食品冷链物流在运输过程中的跟踪及溯源性问题,提出了基于物联网技术的物流解决方案,通过结合无线射频识别技术(RFID)和无线传感网络技术(WSN),构建了一个冷链物流跟
<正>4月20日,一场以"创变格局,智联世界"为主题的中美汽车产业高峰论坛,吸引了来自中国和世界的各路精英。智能驾驶的产业化含义,在与会大佬们中英文的思想碰撞和激辩中,逐渐
陆游(1125-1209)是我国南宋时期著名的文学家,也是我国古代存诗最多的诗人,在其诗集《剑南诗稿》中现存诗9300余首,其中有大约500首记述了诗人熟知的农事生产活动、农业生产
甾醇载体蛋白-2(SCP-2)是广泛存在于脊椎动物和无脊椎动物细胞内的一种非特异性脂质转运蛋白,它与细胞内的胆固醇和脂质的转运密切相关。目前世界上关于甾醇载体蛋白-2(SCP-2