基于MapReduce的分类算法研究

来源 :江西理工大学 | 被引量 : 1次 | 上传用户:hawkwang2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类算法是一种有监督的学习算法,它能够根据有标记的信息发现分类规则、构造分类模型,从而预测未含标记的属性特征。在分类算法中,随机森林以其具有稳定性强、对噪声和异常值有较好容忍性等特点,受到人们的广泛关注。随着信息技术和网络技术的发展,大数据成为研究热点,相较于传统数据,大数据具有了4V特性——Volume(数量大)、Variety(种类多)、Velocity(速度快)、Value(价值密度低),这使得传统随机森林算法在处理大数据时所需运行时间较长、内存容量较多,且通过提升计算机硬件水平来满足人们对大数据分析与处理的需求,显得尤为困难。此时并行化的计算思想变得非常重要,通过改进传统的随机森林算法,并与分布式计算模型相结合成为当前研究的主要方向。目前,已提出的并行随机森林算法解决了传统随机森林算法学习效率低的问题,且为了进一步提升随机森林算法的预测准确度,借助神经网络负反馈学习的方式,提出了并行深度森林算法,但仍存在大数据下数据集冗余与不相关特征过多、并行化效率低等问题。针对以上问题,在研究随机森林、深度森林以及MapReduce等相关知识的基础上,分别针对现有的并行随机森林算法、并行深度森林算法存在的问题,提出了:(1)结合信息论和范数的并行随机森林算法——PRFITN(Parallel Random Forest Algorithm based on Information Theory and Norm);(2)结合信息论改进的并行深度森林算法——IPDFIT(Improved Parallel Deep Forest based on Information Theory)。(1)结合信息论和范数的并行随机森林算法PRFITN针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下结合信息论和范数的并行随机森林算法PRFITN。首先,该算法基于信息增益和费罗贝尼乌斯范数设计了一种混合降维策略DRIGFN(Dimension Reduction based on Information Gain and Frobenius Norm),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了基于信息论的特征分组策略FGSIT(Feature Grouping Strategy based on Information Theory),根据FGSIT策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构建时训练特征的信息量,提高了分类结果的准确度;最后,在Reduce阶段提出了一种键值对重分配策略RSKP(Redistribution of Key-value Pairs),获取全局的分类结果,实现了键值对的快速均匀分配,从而提高了集群的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有着更好的分类效果。(2)结合信息论改进的并行深度森林算法IPDFIT针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,提出了大数据下结合信息论改进的并行深度森林算法IPDFIT。首先,该算法基于信息论设计了一种混合降维策略DRIT(Dimension Reduction based on Information Theory),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了一种改进的多粒度扫描策略IMGSS(Improved Multi-Grained Scanning Strategy)对样本进行扫描,保证每个特征在扫描后以同频率出现在数据子集中,避免了因多粒度扫描不平衡对深度森林模型的影响;最后,结合MapReduce框架,对深度森林模型每层级联结构中的随机森林进行并行化训练,同时提出了一种样本加权策略TSWS(The Sample Weighting Strategy),根据级联中森林对样本进行评估,选取评估结果较差的样本进入下一层训练,减少了层级中样本的数量,从而提高了算法的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有着更好的分类效果。
其他文献
花朵授粉算法是新近被提出的一种群智能优化算法。相比于传统数学方法,花朵授粉算法具有实现简单,灵活性强,鲁棒性高的优点,在求解实际工程中的最优化问题时展现出独到的优势。自提出以来,花朵授粉算法凭借其结构简单、优化效果好,得到了许多研究者们的关注,并被广泛用于各领域中的优化问题。然而,花朵授粉算法在求解一些复杂的工程优化问题时,仍然存在着开采能力不足,求解精度不够高的问题。在提升算法开采能力方面,利用
学位
自燃爆炸是金属硫化矿山开采中所面临的灾害之一,往往是由于黄铁矿(Fe S2)、磁黄铁矿(Fe0.875S)等高活性硫化矿物氧化自热导致。目前,关于黄铁矿自燃机理、矿石堆自燃预测预报技术以及矿山防治研究较为全面,但关于黄铁矿粉尘爆炸的相关报道较少,且黄铁矿非纯物质,常与多种硫化物以及氧化物共生,黄铁矿与任意一种伴生物之间相互作用都可能改变爆炸性质。因此,本论文在课题组前期研究基础上,开展了黄铁矿、磁
学位
物联网、5G技术迅速发展,给海洋无线通信网络带来新的机遇,大量智能终端设备的部署,对海上无线通信网络带宽、延迟、容量等提出了更苛刻的要求。边缘计算作为一种新的计算模式,将计算和存储资源带到网络边缘侧,有效缓解远程传输带来的带宽压力,提高任务处理的效率。海事网络部署环境复杂,具有动态性、可靠性差等特点,使边缘计算在海洋通信领域中的应用更为复杂化,如何实现海上复杂环境下任务高效可靠卸载是海上边缘计算亟
学位
难处理金矿通常需经过氧化预处理才能更好实现回收金,生物氧化是一种绿色环保的预处理技术,具有广阔的应用前景。在实际生产中,由于微生物对重金属离子的耐受度有限,一直存在氧化过程矿浆浓度低,处理效率低的问题。本文针对工业上生物氧化难处理高砷金精矿存在的突出问题,采用新型陶瓷超滤膜技术,分离去除氧化过程产生的砷离子和硫酸根离子等有害成分,同步提高矿浆浓度和微生物密度,进而提高生物氧化预处理的效率。取得的主
学位
由于伴生硫化矿在主干流程处理过程中吸附了捕收剂,导致浮选性能相近,钨矿山在分选该类资源时普遍存在精选分离效果差、精矿互含严重、选矿回收率低等问题。本研究以黄铜矿、黄铁矿和闪锌矿单矿物为对象,以H2O2、KMn O4和NaClO为氧化剂代表,分别考察了“矿物+氧化剂+捕收剂”以及“矿物+捕收剂+氧化剂”两种加药顺序下三种矿物的浮选行为,以明晰捕收剂对钨矿伴生铜锌硫化矿氧化浮选行为的影响。通过人工混合
学位
法律判决预测(Legal Judgment Prediction,LJP)是指以案件的案例描述为基础,对判决结果进行预测,并逐渐成为法律领域的一个研究热点。一般来说,经典的LJP包含三个子任务,即适用法律条款预测、罪名预测和惩罚刑期预测。在现实场景中,罪名预测和适用法律条款预测都是多标签场景下的多分类任务。然而,大多数现有研究仅将其建模为单标签场景下的多分类问题。此外,大部分研究只考虑了案例描述的
学位
个人健康数据包括个人的身份背景、疾病诊断历史、体检数据以及医疗保险记录等数据,在临床医学诊断和“互联网+医疗”中发挥着越来越重要的作用,中心化的个人健康数据存储存在的问题是患者并不掌握自己的数据,而是某个医院或者是第三方机构,不利于患者隐私信息的保护,个人健康数据的泄露和篡改会给个人或医疗机构带来严重的经济损失和医疗纠纷。而区块链的出现为解决中心化机构普遍存在的高成本、低效率和中介信用低等问题提供
学位
5G网络的大规模部署和物联网的出现,大量通信设备的接入造成通信拥堵、中断,传统无线通信系统正面临前所未有的挑战。随着海洋经济的蓬勃发展,为满足日趋频繁的海事活动的通信需求,必须实现对海上无缝、高效、可靠和全覆盖的通信。受海上风浪等各种复杂气象环境的影响,海上无线通信的发展明显滞后与陆上无线通信,如何构建一个高速可靠,低延迟,低成本的新型海上无线通信系统是我国建设海洋强国的关键问题。本文主要研究工作
学位
在多金属硫化矿浮选中,磁黄铁矿的存在会对伴生铜、铅、锌等硫化矿的浮选分离造成显著影响。根据矿物性质的差异,运用表面氧化调控技术可以将不同硫化矿之间疏水性的差异放大,从而将两者分离。该技术已应用在硫化矿的浮选分离中,但是对磁黄铁矿的应用较少,此外表面氧化对磁黄铁矿浮选行为的影响机理研究较少。因此本文以单斜磁黄铁矿为研究对象,研究了其在不同捕收体系下的浮选行为,考察了表面氧化对其浮选行为的影响规律,采
学位
在车联网(Internet of Vehicles,IoV)环境下的车辆配备了先进的车载传感器和智能电子设备,并进一步配备无线通信装置,能够有效完成Io V内部成员之间的交互通信。但是,IoV系统一般需要在无线网之下运转,所以恶意的攻击者能够轻易截取、修改、增加和删除传输的数据。同时,云计算的集中计算特质会加剧节点不均匀分布的问题,导致获取信息以及传输数据时受到影响,如果传输数据时被他人截取篡改,
学位