基于Spark平台的改进随机森林算法的高效并行化研究

来源 :湖南工业大学 | 被引量 : 1次 | 上传用户:shalaoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自人类进入信息化社会以来,大数据已深入到各行各业中,有效利用数据挖掘技术可从大数据中挖掘出有价值的知识从而带来巨大的经济效益,故大数据环境下的数据挖掘已成为研究热点之一。随机森林(Random Forest,RF)算法是一种典型的集成学习算法,因具有超参数少、分类性能优且易于并行化等优点常被用于数据挖掘。但在大数据环境下,随机森林算法由于过多的决策树数量导致其分类时间过长,这已成为随机森林算法应用于大数据环境下数据挖掘的一大障碍。为此,本文采用集成修剪技术对随机森林算法进行改进,在保证随机森林模型准确率的同时显著减少分类时间,并基于分布式并行计算框架对改进随机森林算法进行并行化,以提高其在大数据环境下的模型训练速度和分类速度。具体研究内容主要有以下两方面:针对传统随机森林算法在大数据环境下存在分类速度较慢以及重复投票的问题,提出了基于相似度的改进随机森林算法。通过剔除原始随机森林模型中准确率较低且易于重复投票的决策树,构建了一个分类速度较快且准确率较高的随机森林模型。为更好应对大数据环境,在Spark平台中对改进随机森林算法进行了并行化。首先并行训练多棵决策树得到一个原始随机森林模型,其次筛选掉原始随机森林模型中准确率较低的决策树,接着并行获取被保留的决策树的全部路径信息,然后并行构建一个决策树相似度矩阵来剔除易于重复投票的决策树,最后得到一个可快速有效分类的改进随机森林模型,将其应用于滚动轴承故障诊断中。实验结果表明,面对大规模滚动轴承数据集,该算法不仅能取得较好的故障诊断准确率,而且具有较快的模型训练速度和故障诊断速度。为了寻找随机森林模型中的最优子森林以提高随机森林模型的分类准确率,且进一步提高其分类速度,提出了基于多目标教与学优化(Muliti-Objective Teaching-Learning-Based Optimization,MO-TLBO)的改进随机森林算法(简称MO-TLBO-RF算法)。通过以最大化准确率和最小化分类时间为目标,MO-TLBO算法可以找到分类准确率更高且分类速度更快的子森林。此外,针对大数据环境下使用MO-TLBO算法对随机森林进行集成修剪的时间开销过高的问题,提出了投票集策略以改进适应度评估。在Spark平台中,基于数据并行的思想对MO-TLBO-RF算法进行了并行化,同时为了减少并行MO-TLBO-RF算法在模型训练过程中的Shuffle次数,提出了Shuffle优化策略。采用滚动轴承数据集和28个UCI数据集验证了MO-TLBO-RF算法及其并行化的有效性,实验结果表明,面对大规模滚动轴承故障数据,该算法可得到一个故障诊断准确率高且诊断速度快的随机森林模型;面对包含多个场景的UCI数据集,该算法得到了较好的分类结果。结果还表明投票集策略和Shuffle优化策略可大幅减少采用MO-TLBO算法对随机森林模型进行集成修剪的时间。
其他文献
异质文化是可以共享的,最初因陌生感会导致相互的冲突与战争,但在随后便一定会产生异质文化之间的交互性接触,最后会融合并滋长出新的文化要素,从而赋予了原有的那些文化以新的生命力和成长力。文化深处的政治价值是对立的,直接表现为政治制度的对立。政治制度与政治价值的对立演绎了两千多年的国际关系史,但在当今经济全球化之下,世界各国相互依赖性越来越强,即便在相互依赖框架之中,竞争与合作也是共存的,这是国际关系的
期刊
随着智能工业化的发展,旋转机械设备被广泛应用于各种生产场景中,滚动轴承更是其中的核心,因此对滚动轴承健康状态的诊断具有重要意义。本文以滚动轴承为研究对象,利用深度学习技术对传感器采集到的振动信号数据进行故障诊断研究,主要研究内容如下:(1)针对时序信号特征不明显、常规卷积层特征提取能力差的问题,研究了一种基于短时傅里叶变换(STFT)和残差嵌套卷积网络的故障诊断方法。采用STFT提取原始信号的时频
学位
目的:本课题针对社区冠心病心绞痛、心肌梗死患者,开展中医健康管理模式下冠心病心绞痛、心肌梗死患者中医体质演变特点的观察性研究,为社区冠心病心绞痛、心肌梗死中医健康管理及防治策略提供理论及实践依据。方法:选取2020年11月-2020年12月乌鲁木齐市炉院街、幸福路两个社区卫生服务中心,明确诊断为冠心病心绞痛和心肌梗死的患者共计319例,其中冠心病心绞痛患者210例、心肌梗死患者109例。对所有调查
学位
目的:观察腹八针对治疗气血不足型周围性面瘫恢复期患者的临床疗效。方法:把符合纳入标准的80例面瘫患者用随机的方式分为治疗组腹八针结合常规针刺治疗,另一组为对照组常规针刺治疗,采用优化Portmann简易评分量表及House-Brackman分级在治疗前后分别进行打分,比较两组在症状及疗效上的差异。结果:1.治疗前两组在性别、年龄、病程之间的差异均无统计学意义(P>0.05)。2.两组在治疗后优化P
学位
目的:探讨信号转导和转录激活因子3与基质金属蛋白酶-9在LPS诱导的炎症性损伤致肠屏障功能障碍中的作用及其相互关系。方法:按照随机数字表法将32只清洁级健康雄性小鼠分为四组:Stattic7d组、Stattic14d组、Sham组和NC组。Stattic14d组给予Stattic15 mg/(kg·d)腹腔注射,Sham组给予同等容量的生理盐水,共预处理14 d;Stattic14d组和Sham组
学位
透明物体检测在智能机器人、智慧实验室和智能实验教学等领域中发挥着重要作用,推动着科技生活的发展,但对透明物体的检测具备一定的挑战性,由于透明物体本身没有自己的纹理属性,其外观很大程度上依赖于环境背景,在复杂的环境下对透明物体的准确识别存在很大难度。目前深度学习技术广泛应用于目标检测任务中,使得检测的性能得到很大提升。因此,本文将深度学习技术应用于透明物体检测领域,提出了基于CNN的真实场景下透明物
学位
目的:通过收集研究冠心病患者的临床资料,比较急性冠脉综合征与慢性冠脉综合征的中医证候类型分布,探讨各证候类型的冠心病危险因素相关性,分析新疆冠心病患者疾病全过程的特点,为急、慢性冠脉综合征的预防与治疗提供中西医结合临床依据与参考。方法:本课题采用回顾性调查研究,在新疆医科大学附属中医医院和新疆乌鲁木齐市中医医院两家大型三甲医院心内科,共收集1006例冠心病有效病历,对患者的基本情况、中医证候学、危
学位
有效感知透明物体可以帮助家庭服务机器人或盲人视觉辅助等应用的扩展,由于透明物体外观光线反射、折射和投射的特性可能会使深度传感器失效,大多数系统通过声呐或激光雷达多传感器融合方法来感知环境,但仍会受到透明物体导致的扫描不匹配的影响,基于纯图像视觉的方法则比高精度传感器更便宜,更可靠,本文以基于卷积神经网络的目标识别为研究方向,探究了真实生活场景下的透明物体识别方法,主要完成了以下的工作:(1)透明物
学位
报纸
非编码RNA与多种生物机制过程密切相关,其突变和失调会诱导包括癌症在内各种疾病的发生。机器学习方法不仅可以减少资源消耗,还可以加速药物发现,因此,从机器学习角度分析RNA分子,有助于研究RNA的生物机制和功能。本论文主要以病毒-药物关联、lncRNA-蛋白质相互作用为研究对象,从以下几个方面提出机器学习模型和算法,从而为相关疾病的诊断与治疗提供有效线索。首先,基于正则化方法提出最小二乘法模型VDA
学位