基于spark的K近邻分类算法研究及应用

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:hello0306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,产生了大量的信息,如何从中获得有价值的信息是一个很有意义的研究内容。随着信息的越来越多,单机已经无法处理这样的数据量,Hadoop就此诞生了,但是Hadoop的计算模型编写代码比较复杂,并且计算模式是基于磁盘的,这样就导致计算速度很慢,Spark的诞生很好的弥补了Hadoop的缺陷,越来越多的人选择Spark作为大数据的计算框架。分类算法是数据挖掘中的一个重要部分,主要是用来做预测和推荐等。Spark MLlib是Spark中的机器学习算法库,但是由于Spark刚刚诞生,因此其算法库并不完善,而如今在Spark平台的机器学习算法库MLlib中并不支持K近邻算法,但是K近邻算法简单有效,易于实现,应用广泛,因此在Spark平台上实现K近邻算法是很有必要。本文是将聚类算法和K近邻算法相结合,利用聚类算法,先求出训练样本集合中每一类的样本类别中心,再求出训练集中每个训练样本离样本类别中心的距离大小,将每个距离平方的倒数作为权值,利用权值来区别对待测试样本的K个最近邻,最后采用加权投票策略进行分类。通过实验验证改进后的K近邻算法有较好的正确率。然后对改进的K近邻算法进行并行化设计,并在Spark平台上实现并行化。搭建了Spark集群进行实验分析,通过实验验证算法在Spark平台上运行的时间比单机有明显的降低,算法效率有明显的提高。本文针对K近邻算法在Spark平台上并行化时发生的数据倾斜状况进行分析研究,数据倾斜非常影响算法的执行效率,当K近邻算法计算的数据量越大,算法执行效率越低。本文对K近邻算法并行化进行改进优化,提出了不同场景下数据倾斜的5种解决方案,解决了数据倾斜问题。通过实验首先验证了数据倾斜解决方案的有效性,接着验证算法的加速比和运行时间,发现优化后的算法效率有明显提升。
其他文献
目的:分析Th17T淋巴细胞浸润及相关细胞因子在免疫性前列腺炎组织中的表达水平。方法:将60只小鼠分为2组,研究组和对照组,造模成功后,取前列腺组织,分别进行免疫组化和PCR检测T
"知识经济"的提法和概念值得商榷.人类历史发展前两个阶段都是以产业命名的,即农业经济和工业经济,现阶段若以"知识经济"命名,则不合历史逻辑,"知识"并非产业,构不成产业经济
为保证士官队伍各项管理政策调整和改革稳步推进,提升部队战斗力和传承优良传统,在分析士官教练员特点的基础上,从职业特性、自身素质及现行体制方面,梳理开展士官教练员思想
本文推出了激光跟踪仪主要几何误差数学模型,给出了误差分离方法及修正方法,首次在激光跟踪仪全程 35m 范围内进行了比长实验和误差修正实验,得到了 LTD500 大范围空间测长精
党的十九大是在全面建成小康社会决胜阶段召开的一次十分重要的大会。大会作出中国特色社会主义进入新时代、社会主要矛盾已经转化等重大论断,具有划时代的里程碑意义。大会
近日,中国银联联合六大国有银行,在乌镇举行的第六届世界互联网大会“金融科技——深度融合,多向赋能”论坛中,发布其全新智能支付产品“刷脸付”。这是继支付宝、微信之后,又一支
学位
LDPC码在深空通信中有很好的实用价值,同时LDPC码也被广泛应用于光纤通信、卫星数字视频和音频广播等领域。针对LDPC译码器提出一种新的设计思路,将流水线思想从译码算法本身
<正> 普希金的代表作《叶甫盖尼&#183;奥涅金》是以它男主人公的名字来命名的,但在这部诗体小说中最能打动人的形象、最富于艺术魅力的人物却是它的女主人公达吉亚娜。这是因
随着精神文明的发展与崛起,美术馆的功能从以收藏为主的陈列走向以人为主的现代体验性展览,逐渐成为城市中公众休闲娱乐和文化教育的社会休闲场所。旧有的注重空间物质功能需
多式联运作为一种绿色高效的运输形式,有效地满足当下货物运输的多样化需求,在全球范围内得到快速发展。近年来,为了深化交通供给侧结构性改革,促进物流业“降本增效”,我国政府相继出台了多项有关促进多式联运发展的政策,多式联运上升为国家战略,进入快速发展时期。随着相关政策不断推进落实,综合交通体系建设不断完善,为发展多式联运奠定坚实的设施基础。为了更加有效地利用多式联运资源,满足货主多样化的运输需求,促进