基于Hadoop平台的数据挖掘分类算法分析与研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:jinmeng79
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网等技术的发展,数据的总量以及类型将会越来越丰富。收集、分析并运用这些丰富的数据,是如今和未来数据发展的一个主流。其中,对数据进行有效准确快速的分类,是首先需要解决的任务。传统的数据挖掘分类算法往往无法快速有效地处理大规模数据。Hadoop作为一个优秀的云计算平台,能够对海量数据进行高效、快速以及可靠的处理。本文具体说明了Hadoop平台、数据挖掘及其分类的相关概念,然后深入分析了支持向量机(SVM)算法、K-近邻(KNN)算法以及朴素贝叶斯(NB)算法这三种性能优秀的数据挖掘分类算法,由于它们各种各样的缺点让分类的结果达不到理想的状态,因此本文对这三种分类算法进行了分析,并通过改变计算方式和加入权重系数等方式对算法进行改进,融合各种算法的优点,摒弃它们的缺点,提出了SVM_KNN分类算法以及SVM_WNB分类算法,以解决处理上的不足。同时在这个基础上本文介绍了算法并行化的可行性和思路,将提出的两种改进算法在Hadoop云计算平台上进行并行化地处理,使得算法可以对庞大的数据进行有效地处理。最后通过实验可以发现,经过并行化处理后的算法在处理海量数据时,在处理时间和准确性上,都有了较大的提高,它们的加速比也在逐渐增大。因此可以得到结论,能够使用改进后的新算法处理大数据,并且可以预见分类效果将会得到显著的提升。
其他文献
水泥混凝土路面在我国已有30余年的发展历史,随着交通不断的发展,对于混凝土路面性能及施工速度的要求也逐步增高。随着市政道路与公路的愈加成熟,封闭交通施工带来的问题越
近三年来,大丰法院受理的农村离婚案件呈不断上升趋势,给社会主义新农村建设带来了一些负面影响,也势必带来社会的不稳定,反映出许多深层次的社会问题。最近,笔者通过对该院近三年
报纸
一、引言软件工程的开发经历了如下发展阶段:原始开发--函数的使用--结构化程序--模块化--面向对象等阶段.然而,随着软件规模的不断扩大,软件需求的日益复杂多变,以及新技术
以显著持久心境低落为主要临床特征的精神障碍抑郁症具有高患病率、高复发率、高自杀率和高致残率,已成为极严峻的公共心理健康隐患。抑郁症治疗除常用的药物、心理和物理等
文章对给排水管道施工作用、设计需求以及管道材料性能进行简单介绍,针对现代市政道路给排水管道工程的设计与施工技术工艺及质量控制展开深入研究分析,结合本次研究,发表一
张志公先生对传统语文教育的研究可以说是比较系统的第一人,也指导着后人对传统语文教育的研究。简要对张志公先生研究传统语文教育中识字教育做了一个介绍,并且探讨传统语文