基于ARM NEON目标检测网络算法的加速技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:smiletonyfrank
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习成功地应用在目标检测、图像识别、语音识别、自然语言处理等多个领域。由于需要大量的计算资源,深度学习相关算法主要在企业的服务器集群等计算性能高的设备中运行。随着物联网时代来临,深度学习需要在复杂的实际环境中落地,原本的软硬件解决方案无法适应复杂多变、实时性要求高的实际工程。为深度学习应用找到新的软、硬件解决方案是大家研究的重点。ARM作为一种最通用的移动端处理器具有开发周期短等优势。ARM NEON指令集最早被应用在多媒体处理等计算量密集型的应用,其单指令多数据的处理方式适合大规模的数据计算,因此被运用到处理深度学习应用上。本文以ARM cortex-A55为开发平台,研究以深度学习为特征提取层的目标检测网络的加速实现技术,主要研究内容如下:首先,研究深度学习及目标检测网络拓扑结构和深度学习加速技术。从深度学习的基本思想出发,以目标检测网络为深度学习的典型应用背景,详细分析网络的结构特点,分析技术难点。在神经网络加速上,研究目前深度学习网络轻量化方法,得出本文深度学习应用的软硬件解决办法。其次,完成高速并行的深度学习相关的基础运算。以ARM为硬件开发平台,实现半精度浮点数的使用、基本循环的设计、矩阵相乘设计、快速指数函数计算等基础运算。设计高速缓存优化方案,提高程序的时间局部性和空间局部性,为设计实时性的目标检测网络提供基础运算支持。再次,实现目标检测网络的前向传播。一方面,完成深度学习算子层的计算,包括卷积层、池化层、全连接层、Softmax层等。在卷积上实现了两种计算方式并进行对比,其中img2col方法比直接计算方法在缓存上有优势,winograd方法在算法复杂度上有优势。在池化层,设计新的模型数据存储结构。在全连接层,调用矩阵相乘的计算。在Softmax层,利用快速指数函数的计算。另一方面,设计计算图将算子层进行连接,完成整个目标检测网络的构建。最后,搭建实验平台。依据现有的实验条件,搭建验证系统的硬件和软件环境。在开发板上完成对比实验,得出实验结果。设计实验验证方法对本文设计目标检测网络进行验证,在计算性能、访存性能、算子性能、目标检测网络整体等方面进行分析,得出本文设计方案具有计算性能上的优势的结论。
其他文献
介绍了Leica公司推出的最新TPS1200系列全站仪(即测量机器人)及其二次开发的GeoCOM应用开发接口和基于它进行开发测量程序的基本步骤及其应用.
在中国,网络游戏成为了互联网上一项不可或缺的服务内容,其中大型多人在线角色扮演类游戏(MMORPG)是目前网络游戏市场上占据主力地位的产品类型。在游戏界,人们一直在致力于
本文研究半无限晶体中强耦合表面极化子在磁场中的性质,采用线性组合算符法导出强耦合表面磁极化子的有效哈密顿量和回旋共振频率,并讨论这些量和磁场的关系.
<正>道路是城市形象的主体框架,是现代城市景观的重要组成部份,而大桥则是道路上令人注目的标志点,是道路中最为精采动人的部份。在城市发展的过程中,有些桥梁还成为一个国家
会议
本文通过对我国农村公共物品供给现状的阐述,指出农村公共物品有效供给对农村经济社会发展的重要意义,提出农村公共物品有效供给应遵循的基本原则。
听说蒙古国要召开科学讨论会纪念三音诺颜扎萨克亲王那彦图,心中十分高兴,从而想起幼年屡次见过的那彦图亲王。我是清高宗乾隆帝第五子荣亲王永琪的后裔,我家和那彦图亲王(即
会议
<正>20世纪90年代以来,短波红外矿物光谱技术被广泛地应用于矿产勘查领域,在西方矿业界得到迅速推广和普及,逐渐成为一种普遍的勘探辅助手段,尤其是应用于斑岩矿床和浅成低温
会议
应用更优更新的纤维成为水刺产品开发和革新的热点。介绍了木浆纤维、超细纤维、真丝、Lyocell纤维及其他功能性纤维等几种原料纤维。
2009年9月,"浙江省大学生职业生涯规划大赛"正式启动,大赛以"普及规划知识,提升职业能力,打造优质人生"为宗旨,通过职业规划文本、现场展示、职场模拟、职业生涯访谈等手段真
<正>在中职语文教学中实施爱情教育,既是开拓性教育课题,也是对传统教育观的超越。这些年爱情作品也选在课本中,展现人类最自然的人性和最高尚的情感,我们要充分利用这些宝贵
会议