非均衡数据场景下并行RF和FCM算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:zhaochunbo123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非均衡数据场景在现在的大数据处理,机器学习任务中十分常见。标准的机器学习算法一般都是以样本数据分布大致均匀为前提建立的,然而当样本数据分布不均衡时,算法的准确度会随着数据不均衡程度的增加而急剧下降。因此如何改进标准算法,使它们的适用范围扩展到非均衡数据是一个非常值得研究的问题。大数据并行计算框架Spark在当今的业界十分流行,并行化的机器学习算法实用性更强。而每一种算法需要使用不同的改进手段使之适用于非均衡数据。本文针对机器学习分类任务中广泛使用的随机森林算法(Random Forest,RF)和聚类任务中广泛使用的模糊c均值聚类算法(Fuzzy C-Means,FCM),在非均衡数据场景下研究并使用不同的策略改进了两种算法。本文的主要研究工作如下:(1)现有处理非均衡数据的RF算法时间复杂度较高,并行化程度低并且可扩展性不强,针对这些不足本文提出了一种改进的RF算法。现有算法样本抽取阶段使用的采样算法效率较低,改进算法使用SMOTE抽样技术对样本中的少数类进行扩充,保证时间效率的同时使得每一次抽样会缓解样本子集的非均衡现象;现有算法的投票机制较简单,改进算法考虑了决策树对袋外数据的分类精度,同时放大少数类权重,建立了倾向于少数类的加权投票机制。受到Spark标准库RF算法的启发,改进算法沿用了装箱策略,同时将决策树由原始的二叉树扩展为多叉树,提高了生成决策树的时间效率。在Spark并行环境下的测试结果表明,本文的改进算法在时间效率、召回率、F1指数以及扩展性要优于其他算法。(2)现有针对非均衡数据的FCM算法需要一定先验知识,并且对非球形数据的聚类精度较低。本文提出了一种改进的并行化KFCM算法,该算法在没有先验知识的情况下使用两段式的聚类策略,首先在各个分区使用KFCM算法进行聚类运算,由于样本分割,算法的时间效率得到提高,但是各分区的中心点一般情况下差异较大,因此二阶段使用样本加权的wKFCM算法对各分区的中心点再次聚类,以达到弥补聚类精度的效果。在Spark环境下的测试结果表明,改进算法在保证了算法可扩展性的前提下,二阶段聚类策略可以明显提高聚类算法的精度。(3)针对单一算法进行非均衡数据分类任务时精度较低的问题,基于现有的非均衡数据分类框架,本文提出了一种结合聚类算法和分类算法的混合分类框架,该框架可以解决大部分非均衡数据固有分布对于分类算法带来的困难,在真实数据集上的实验结果表明该分类框架较已有的框架具有更高的准确率。
其他文献
近几年来,开发的主要微孔注射成型技术有Mucell、Ergocell和ProFoam,它们的技术区别在于超临界流体注入和计量方式的不同,在微孔发泡注射成型过程中,超临界流体在聚合物熔体
教育需要以生命为根本出发点,以促进生命发展、提高生命质量为责任,以追寻生命价值和生命意义为目的。生命化音乐教育是构成生命教育体系的重要分支系统,也是实践生命教育理
行人再识别(Person Re-identification,Person Re-ID)指给定一个摄像头网络中某一摄像头下的行人图片,自动提取出其它摄像头下同一行人的图片。由于摄像头部署差异和行人运动,同一行人表现的外表特征会有较大变化,给行人再识别带来了巨大的挑战。基于深度学习的行人再识别系统可以有效提取行人的外表特征,效果,但需要大量的训练数据,而当前的行人再识别数据集规模都比较小,无法完全满
随着人工智能、机器学习以及模式识别等技术的蓬勃发展,表情分析在机器视觉等领域成为一个重要的研究方向,在人机交互、远程教育、医疗、日常生活以及安全等方面有着广泛地应
随着网络的大范围普及,网络终端的接入数量爆炸式增长,网络业务也更加多元化,对传统网络的组播模式带来新的挑战。软件定义网络(Software Defined Network,简称SDN)解耦了网络的控制和转发功能,提出可编程化的新型网络架构,为组播业务的优化提供了更多可能性。然而,现今对于SDN组播的研究多数集中在单域组播路由算法的改进上,在多域协同的SDN环境下,设计并实现符合目前组播服务需求的完
公簿持有农是英国农民阶级的重要组成部分,它的兴起和发展体现了英国社会经济的不断变迁。本文主要研究的时间段为14世纪中后期至20世纪上半叶,共分为三个章节进行探析。第一章讲述公簿持有制的初步发展。从维兰到公簿持有农,是农民身份的转变,也是中世纪英格兰社会环境变化的重要表现。公簿持有制的土地期限较长且有着固定的低地租,这种保有关系在英国迅速发展。第二章讲述圈地运动与公簿持有农的关系。笔者以都铎王朝和议
人工智能时代是数据驱动的时代,有了数据就能够获得真实世界的规律并有利于人们更好地做出决策。在图像识别和机器视觉技术领域,如图像、视频这样包含了大量数据的载体也是人工智能时代十分重要的数据来源。不同于普通的表格数据,这些数据的表现形式和处理方法直接决定了人们能从中挖掘出多少有用信息。因此,图像识别技术是人工智能发展领域中十分重要的一部分。头部姿态估计是图像处理和机器视觉中的一大研究热点,其检测过程是
格被广泛应用于拓扑学、逻辑学、组合学和代数学等数学领域.格与群、环、域都是代数学中重要的代数系统,而与群、环、域不同的是,格是一类特殊的偏序集.格作为偏序集能够更准
迁移学习或域适应学习是目前机器学习中一个热点研究领域,利用与目标域相关的源域知识辅助目标域的学习。异构域适应学习(Heterogeneous Domain Adaptation,HDA)是域适应学习的重要分支,由于源域和目标域间的特征空间不同,域间的知识迁移更具有挑战性。如何对齐不同的特征空间,自适应地迁移相关知识对于HDA而言至关重要。目前已出现很多HDA方法,但仍存在以下不足:1)只注重对齐源
在应对不同容量规模的文件存储的场景里,现有分布式存储系统采用的存储策略是固定文件分块大小的方式,如GFS和HDFS等,固定分块目的是为了提高服务器并行写入数据的性能和减少