论文部分内容阅读
随着互联网技术的迅速发展以及大数据时代的到来,使得大数据相较于传统数据,具有了4V特性——海量、变化速度快、多模态、价值总量高,4V特性导致传统分类算法和处理平台很难处理大数据,近年来并行化技术和特征选择型分类算法的发展为大数据处理提供了一个新视角。DCNN(Deep convolution neural network)是分类算法中的一类重要算法,具有强大的特征选择能力、泛化能力以及函数逼近能力,并被广泛应用于图像分析、语音识、目标检测、语义分割、人脸识别、自动驾驶等领域。因此,基于大数据的DCNN研究已经成为目前分类算法的研究热点。虽然以DCNN为代表的深度学习技术近年来在大数据分类领域取得了许多重要突破,但仍存在以下问题:(1)如何在保证分类性能的同时,减少深度卷积神经网络的冗余参数;(2)如何进一步处理DCNN算法的寻优函数收敛速度慢的问题;(3)如何实现数据的快速均匀分组,从而提高集群的并行效率。针对上述问题,在研究和分析并行化DCNN算法以及挖掘效率等相关知识的基础上,本文提出了两种并行化DCNN算法:(1)并行化深度卷积神经网络优化算法PDCNNO;(2)大数据下基于特征图的深度卷积神经网络MR-FPDCNN。这两种并行化DCNN算法主要研究工作如下:(1)针对并行DCNN算法在大数据环境下冗余参数过多、收敛速度慢和并行效率低的问题,本文提出了一种并行化深度卷积神经网络优化算法PDCNNO。首先,该算法设计了基于特征图的剪枝策略(Pruning method based on feature map,PFM),预训练网络,获得压缩后的网络,有效减少了冗余参数,降低了DCNN训练时间和空间复杂度;其次,设计了修正正割线的共轭梯度法(Conjugate gradient strategy based on modified secant equation,CGMSE),获取局部分类结果,实现了共轭梯度法的快速收敛,提高了网络的收敛速度;最后,在Reduce阶段提出了控制负载率的负载均衡策略(load balancing strategy based regulate load rate,LBRLA),获取全局分类结果,实现了数据的快速均匀分组,从而提高了并行系统的加速比。实验表明,该算法不仅降低了DCNN在大数据环境下训练的时间和空间复杂度,而且提高了并行系统的并行化性能。(2)针对大数据环境下DCNN算法中存在网络冗余参数过多、参数寻优能力不佳和并行效率低的问题,提出了大数据环境下基于特征图和并行计算熵的深度卷积神经网络算法MR-FPDCNN(Deep convolutional neural network algorithm based on feature graph and parallel computing entropy using Map Reduce)。首先,该算法设计了基于泰勒损失的特征图剪枝策略(Feature map pruning based on Taylor loss,FMPTL),预训练网络,获得压缩后的DCNN,有效减少了冗余参数,降低了DCNN训练的计算代价;其次,提出了基于信息共享搜索策略(Information sharing strategy,ISS)的萤火虫优化算法(The improved firefly algorithm based on ISS,IFAS),根据―IFAS‖算法初始化DCNN参数,实现DCNN的并行化训练,提高网络的寻优能力;最后,在Reduce阶段提出了基于并行计算熵的动态负载均衡策略(Dynamic load balancing strategy based on parallel computing entropy,DLBPCE),获取全局训练结果,实现了数据的快速均匀分组,从而提高了集群的并行效率。实验表明,该算法不仅降低了DCNN在大数据环境下训练的计算代价,而且提高了并行系统的并行化性能。