基于Hadoop平台的混合分类算法研究

来源 :广西师范学院 | 被引量 : 0次 | 上传用户:hhkkpump
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类算法是数据挖掘领域中很重要的数据处理方法,但传统分类算法都具有其自身的缺陷:ID3决策树构造简单,但它无法处理具有缺失属性值的数据集;C4.5决策树改善了ID3存在的问题,但它在构造算法的过程中需要多次扫描数据集,不适合处理大数据样本;朴素贝叶斯分类法理论基础牢固,但它对数据集进行了独立性假设,导致分类结果发生偏差等等。随着“大数据”时代的来临,数据集中的数据量日益膨胀,传统分类算法处理数据的效率急剧下降。对此,现有大量学者对传统分类方法进行改进来提高分类效率。主要可以分为改进算法本身缺陷与对传统算法进行并行化两个方向。本文先通过构造自适应贝叶斯决策树混合分类算法(Adaptive Bayes Decision Tree,简称A-BDT算法)来解决传统分类方法在对大数据集进行分类时遇到的问题,再将A-BDT算法与Hadoop云计算平台进行结合来提高算法运行效率。具体研究工作包括:(1)构造A-BDT算法:本文先对朴素贝叶斯算法进行改进,构造自适应贝叶斯算法(Adaptive Bayes,简称A-Bayes算法),通过对数据集的强关联性假设,在算法公式中引进修正因子,从而减少独立性假设对分类结果的负面影响。再将它与ID3决策树进行结合,构造A-BDT混合分类算法。其中A-Bayes算法完成数据集的预处理工作,补足数据集中属性值缺失的数据,然后使用ID3决策树对处理过后的数据集进行分类,从而改善两种分类算法各自的缺陷。实验结果表明,相对于其他传统分类算法,A-BDT算法具有较好的准确率、召回率,耗时也较短。(2)A-BDT算法的Hadoop并行化:面对具有海量数据的数据集,传统分类算法在串行环境下很难在短时间内给出分类结果,本文把A-BDT算法与Hadoop平台进行结合,利用MapReduce框架对数据预处理、数据集分类等过程分别进行任务分割,把原本串行环境下庞大的任务分成若干个小任务,分别交由若干个Map过程进行处理,处理结果通过若干个Reduce过程进行合并,从而大大提高分类效率。实验数据表明,在Hadoop平台下运行A-BDT算法能获得令人满意的加速比。
其他文献
蓝牙是一种低功耗的近距离无线通信技术,作为无线数据和语音通信的开放性标准,目的是取代现有的PC、打印机和移动电话等设备上的连线。蓝牙技术一经提出,立即受到业界广泛关
近些年,细分方法成为了几何造型领域最活跃的研究热点之一。随着人们在细分领域的不断开拓和研究,在细分的连续性理论、多分辨率表示、非正则规则的构造技术等方面,人们已取得了
基于支持向量机的图像检索,是一个有望用较少的图像样本,取得较好的检索效果的检索手段。借助支持向量机强大的学习能力,研究低层视觉特征和高层语义概念之间的关联,从而实现将高
火灾探测技术是火灾科学领域研究的热点,已取得不错的研究成果。传统火灾探测技术在保护人们生命和财产安全方面起到了非常重要的作用,但在大空间、室外等场所暴露出种种的不足
典型相关分析(CCA)作为经典的多元数据分析方法,通过研究两组变量之间的相关关系来进行特征提取,近年来已开始在模式识别和机器学习等多个领域得到广泛的应用。但一方面,CCA
P2P技术是目前国际计算机网络技术研究领域的一个热点,它将网络的控制权归还给了用户,让他们之间的沟通变得更容易、更直接。它使得边缘节点的资源得到了充分的利用,并能够以
在当今数据信息技术快速发展的社会,信息安全对于每个人来说越来越重要,身份验证和识别是保证安全的重要方法,受到研究人员越来越多的关注。近年来,基于生物识别方法,由于生物特征
当今世界,网络技术已经产生了质的飞跃,随着IP网络的飞速发展,网络的带宽和质量都进步良多,各种基于IP网络的应用也如雨后春笋般出现,而传统电话通信和IP网络间的融合,即Voic
近年来,基于P2P技术的各种网络应用越来越广泛,其中影响最大的应用是文件共享。P2P文件共享以BitComet、Azureus等BitTorrent(BT)类软件为代表,BT流量在整个网络流量中比例非
数字产品已经成为人们主要的信息交流方式,从Internet获得信息达到了前所未有的深度和广度,随之而来的非法复制、篡改等侵权问题越来越受到人们的关注,保护版权者及作者的利