【摘 要】
:
针对传统k-nearest neighbor algorithm(K-NN)分类算法计算量大、高维度海量数据集处理效率低的缺点,本文基于Hadoop平台依托MapReduce分布式编程模型改写Map和Reduce函数,并针
【机 构】
:
桂林电子科技大学计算机与信息安全学院
【基金项目】
:
2016广西高校中青年教师基础能力提升项目(ky2016YB150);桂林电子科技大学研究生教育创新计划项目(2017YJCX48)
论文部分内容阅读
针对传统k-nearest neighbor algorithm(K-NN)分类算法计算量大、高维度海量数据集处理效率低的缺点,本文基于Hadoop平台依托MapReduce分布式编程模型改写Map和Reduce函数,并针对传统K-NN提出数据集主成分分析和临界区域数据预测时距离加权的方法.首先,对高维度数据进行主成分分析达到降维的目的,从而提高运行效率;其次,在预测分类阶段加入完全区域和临界区域的概念,临界区域对k个值n种类别进行距离加权,提高准确率;最后,在Hadoop集群环境下的算法运行,针对海量数
其他文献
随着我国老龄化程度急剧加深,养老压力越发凸显。本文以上海市毛巾二厂改造成曹家渡恒裕老年福利院项目示范为例,设计者提出“旧新用,以新养老”的策略,将既有建筑进行了改造
<正>哈大铁路客运专线工程概况哈大铁路客运专线南起滨海城市大连,经辽宁省营口、鞍山、辽阳、沈阳、铁岭,吉林省四平、长春、松原,终止黑龙江省会哈尔滨,线路纵贯东北三省,
纵观钢铁市场的发展趋势,传统的运营、销售方式已经不能满足企业的需要,必须引起人们的广泛注意。电子商务运用计算机技术、网络技术、通讯技术等现代科技手段,从事商品交易
孔子是我国伟大的思想家、政治家和教育家,但是,有关他的戏剧作品却很少,因而引起了人们的种种猜测。有的认为这是由于他“是个反对戏曲、虐杀艺人的人”,所以在梨园行(戏曲
本文研究平台式惯性导航系统在静基座与动基座下的可观测性与可观测状态确定问题.主要利用组合图论中的二分图与线性结构化系统中的动态图.这种基于图论的方法,不仅能够分析
产融结合是体育产业市场自发形成的金融创新发展范式,具有缓解融资约束、优化资源配置和增进产业协同的重要功能,是解决体育产业资本供需矛盾,推动体育产业高质量发展的一剂
慢性心力衰竭((chronic heart failure,CHF)是一种复杂的临床综合征,是各种心脏病的终末阶段,其发病率、病死率均很高.利尿剂是心力衰竭管理以及控制呼吸困难和水肿症状的重要药
应用不同剂量的吡虫啉·戊唑醇种子处理悬浮剂对裸燕麦拌种,结果表明,高巧600 g/L悬浮种衣剂60~120 mL(商品量)+立克秀60 g/L悬浮种衣剂22~42 mL(商品量)拌100 kg种子,对燕麦红
目的探讨影响脑卒中患者生活能力的相关因素。方法以我院收治的脑卒中急性期患者203例为研究对象,记录其年龄、入院时神经系统功能评分(NIHSS)、格拉斯哥昏迷评分(GCS)、尿失禁等
该试验以发育正常的连翘种子为研究对象,研究种子通过干藏、沙藏、雪藏3种不同方法催芽后在20、23、26、29、32℃5个不同温度梯度下的发芽率和发芽势。结果表明:发芽率最高的