基于大数据的并行卷积神经网络算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:nash86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展以及大数据时代的到来,使得大数据相较于传统数据,具有了4V特性——海量、变化速度快、多模态、价值总量高,4V特性导致传统分类算法和处理平台很难处理大数据,近年来并行化技术和特征选择型分类算法的发展为大数据处理提供了一个新视角。DCNN(Deep convolution neural network)是分类算法中的一类重要算法,具有强大的特征选择能力、泛化能力以及函数逼近能力,并被广泛应用于图像分析、语音识、目标检测、语义分割、人脸识别、自动驾驶等领域。因此,基于大数据的DCNN研究已经成为目前分类算法的研究热点。虽然以DCNN为代表的深度学习技术近年来在大数据分类领域取得了许多重要突破,但仍存在以下问题:(1)如何在保证分类性能的同时,减少深度卷积神经网络的冗余参数;(2)如何进一步处理DCNN算法的寻优函数收敛速度慢的问题;(3)如何实现数据的快速均匀分组,从而提高集群的并行效率。针对上述问题,在研究和分析并行化DCNN算法以及挖掘效率等相关知识的基础上,本文提出了两种并行化DCNN算法:(1)并行化深度卷积神经网络优化算法PDCNNO;(2)大数据下基于特征图的深度卷积神经网络MR-FPDCNN。这两种并行化DCNN算法主要研究工作如下:(1)针对并行DCNN算法在大数据环境下冗余参数过多、收敛速度慢和并行效率低的问题,本文提出了一种并行化深度卷积神经网络优化算法PDCNNO。首先,该算法设计了基于特征图的剪枝策略(Pruning method based on feature map,PFM),预训练网络,获得压缩后的网络,有效减少了冗余参数,降低了DCNN训练时间和空间复杂度;其次,设计了修正正割线的共轭梯度法(Conjugate gradient strategy based on modified secant equation,CGMSE),获取局部分类结果,实现了共轭梯度法的快速收敛,提高了网络的收敛速度;最后,在Reduce阶段提出了控制负载率的负载均衡策略(load balancing strategy based regulate load rate,LBRLA),获取全局分类结果,实现了数据的快速均匀分组,从而提高了并行系统的加速比。实验表明,该算法不仅降低了DCNN在大数据环境下训练的时间和空间复杂度,而且提高了并行系统的并行化性能。(2)针对大数据环境下DCNN算法中存在网络冗余参数过多、参数寻优能力不佳和并行效率低的问题,提出了大数据环境下基于特征图和并行计算熵的深度卷积神经网络算法MR-FPDCNN(Deep convolutional neural network algorithm based on feature graph and parallel computing entropy using Map Reduce)。首先,该算法设计了基于泰勒损失的特征图剪枝策略(Feature map pruning based on Taylor loss,FMPTL),预训练网络,获得压缩后的DCNN,有效减少了冗余参数,降低了DCNN训练的计算代价;其次,提出了基于信息共享搜索策略(Information sharing strategy,ISS)的萤火虫优化算法(The improved firefly algorithm based on ISS,IFAS),根据―IFAS‖算法初始化DCNN参数,实现DCNN的并行化训练,提高网络的寻优能力;最后,在Reduce阶段提出了基于并行计算熵的动态负载均衡策略(Dynamic load balancing strategy based on parallel computing entropy,DLBPCE),获取全局训练结果,实现了数据的快速均匀分组,从而提高了集群的并行效率。实验表明,该算法不仅降低了DCNN在大数据环境下训练的计算代价,而且提高了并行系统的并行化性能。
其他文献
学位
学位
学位
近些年,我国的机器人行业也在不断蓬勃发展,机器人已开始代替人工,广泛应用于各个行业。在过去,机器人的自动化、智能化程度不高,主要用于完成抓取、搬运、焊接等只需要精确的位置控制便可的简单任务,但随着社会的不断发展,机器人只完成简单的工作任务已经无法满足社会发展需求,我们需要将机器人应用于运输、打磨,装配等智能化程度更高的任务。本文主要针对装配机器人中的轨迹规划和柔顺性力控制问题进行研究,主要研究内容
在数字公共交换电话网络中,因为语音采集设备、编解码方式和信道带宽限制等原因,语音信号的频带通常限制在0Hz~4k Hz的窄带范围,缺失了高频部分的窄带语音,在听觉感受上往往表现低沉且厚重,严重降低了语音的情感、说话人和发音辨识度。语音频带扩展技术旨在恢复窄带语音缺失的高频频谱,提高语音质量和清晰度。传统语音频带扩展技术大都是基于语音产生机理的源-滤波器模型,将语音频带扩展任务分为了高频谱包络估计和
教与学优化算法(Teaching-Learning Based Optimization,TLBO)是一种新型启发式群智能优化算法,近年来被广泛应用于解决生产生活中的优化问题。TLBO算法具有参数少、收敛速度快的优点,但是在进行高维复杂优化时,会不可避免地出现早熟收敛、陷入局部极值等问题,难以达到人们的优化需求。本文针对TLBO的缺陷进行改进,并将其应用到实际问题中,使其发挥自身的应用价值。具体工
学位
传统的白铜合金的耐腐蚀性预测都是通过人工选择较为简单显著的特征或通过物理实验方法预测,而目前这些方法存在主观因素强、预测效果不好、成本高等问题。如何对晶界图像进行快速、确切的特征提取并预测成为了需要迫切解决的问题。深度学习已经成为当下计算机应用领域的研究热门,并且在各大工业领域内取得了较好的成果。近年来,材料铜合金的应用范围越来越广,更关注其使用寿命和用于海洋船舶材料时对海水的抗腐蚀性能。合金的抗
随着互联网的快速发展,人类的活动得以进一步扩展,各行各业累积的数据规模急剧膨胀,数据量越来越大,如何从海量的网络资源中快速准确地获取主题信息逐渐成为搜索行业研究热点。主题网络爬虫可以专业化、精准化的提高搜索信息的准确度。准确度的评价指标主要有查准率和查全率,查准率依赖于主题相关性计算,查全率则取决于网页搜索策略的选择。因此,本文围绕主题爬虫的两大关键技术:网页主题相关度计算方法和网页搜索策略开展研
视网膜血管作为人体微循环系统的重要组成部分,糖尿病、高血压等心血管疾病会造成血管的形态变化,医生可以以眼底血管图像为依据,判断患者的患病类型和严重程度。因此,从彩色眼底图像中提取出视网膜血管,在心血管疾病的预防和分析中起着重要的作用。人工视网膜血管分割方法耗时且代价昂贵,不仅需要大批眼科专家,也无法在全国范围内筛查,所以需要依托于自动分割技术。现阶段已经提出大量自动分割方法,然而视网膜血管极为复杂