【摘 要】
:
神经网络在刚刚起步之初,由于硬件发展水平的限制,主要使用CPU或其集群训练模型。而对于目前深度学习中需要密集计算的多层神经网络而言,在传统的CPU环境中的训练时间成本较
论文部分内容阅读
神经网络在刚刚起步之初,由于硬件发展水平的限制,主要使用CPU或其集群训练模型。而对于目前深度学习中需要密集计算的多层神经网络而言,在传统的CPU环境中的训练时间成本较高,因此硬件的计算资源成为网络训练的瓶颈,耗时严重是影响实验效率的关键问题。如今GPU是拥有大量运算单元的通用计算设备,使用其进行神经网络的训练成为一种必然趋势。与在CPU上传统低效的串行训练过程不同,在GPU上的训练过程需要充分利用硬件计算资源和挖掘网络模型的并行性。如何在多GPU的环境中分摊训练数据集以及实时传递更新网络参数以及梯度是本课题的主要研究内容和工作。本课题致力于基于多GPU的多层神经网络并行加速训练算法的研究。在对多层神经网络有监督学习过程做了深入的分析后,根据网络模型的并行结构和学习方式,设计了以小批量数据集并行前馈传播和误差反向传播的方法完成单GPU在CUDA平台上的模型并行和数据并行。详细研究和分析了传统的异步随机梯度下降算法中影响训练速度的临界资源问题,提出三处改进,首先在参数服务器中增加模型参数副本,其次设计小批量数据集的分发机制,然后设置一个独立的梯度分发线程完成GPU与参数服务器之间梯度的调度。系统在多GPU上实现改进后的异步随机梯度下降算法,实现了在多个模型副本上的数据并行。实验对比分析阶段,以网络训练时间为基准,对比在单GPU和CPU上的实现相同网络结构训练的实验效果。与当前流行的DMLC深度学习框架的训练效果进行比较,系统表现出了显著的加速效果。在多GPU上,对比分析当分别设置不同大小的批量数据以及不同GPU个数训练时达到的加速效果,并通过算法改进前后的对比实验验证了改进的异步随机梯度下降算法的有效性。
其他文献
数据通信模块是在PXI主机和用户功能模块间实现数据桥接所必需的接口模块,对它的研究具有很强的实用价值。本课题组提出了一个基于TMS320C6205 DSP开发符合PXI/PCI总线标准的
本文通过对两种互联网核心协议IPv4和IPv6的比较,揭示了IPv4将被IPv6所取代的历史必然性。主要论述了两方面的内容:随着互联网的发展,传统网络层协议IPv4所暴露出来的种种缺
嵌入式Linux操作系统和ARM微处理器的结合成为嵌入式开发的主流。同时,工程扫描仪广泛应用于建筑、测绘、军事、印刷、航天、机械等众多领域。本文主要论述基于嵌入式Linux的
随着信息技术的不断发展,人们已经积累了越来越多的数据。面对这些数据,如何从中找出对生产生活有用的知识已成为数据挖掘、模式识别和机器学习等领域的一个重要研究问题。K-
机会网络作为一种新型的自组织网络,利用节点之间的相遇进行数据传输。机会网络中节点的移动性会导致网络连接不稳定,所以机会网络的路由算法用于解决动态拓扑结构下的数据传
数字景区三维建模包括数据获取、图像分割、图像配准、几何建模、纹理建模等技术,其中数据获取、图像分割和图像配准是三维建模的基础,对建模的效果和质量有着重要的意义。本
互联网的迅速发展导致Web信息飞速增长,Web已经成为世界上最大的信息来源。由于Web资源的迅速膨胀以及Web信息的分散性与异构性,导致知识的难以查询。目前,互联网已经发展成
图像分类是模式识别领域中的重要研究内容,在科学研究和工程技术方面有着非常广泛的应用背景。纹理,作为一种广泛存在的图像模式,自然成为图像分类的重要研究课题。提取纹理
人体检测、识别和跟踪技术一直是计算机视觉和安全领域的热点问题,也是一个广泛而综合的课题,其中人体检测又是人体识别和人体跟踪的前提和基础,人体检测结果的准确程度直接影响
随着经济全球化的不断发展,机动车的数量与日俱增,随之而来的是交通阻塞、尾气污染、噪声污染、交通事故频发等问题。智能交通系统的诞生为全方位高效管理现代交通带来了希望