论文部分内容阅读
近些年来,基于无监督学习的图像深度估计算法成为计算机视觉领域的热门研究方向,广泛应用在三维重建、语义分割、SLAM等场景。考虑到算法的应用,FPGA作为一种高度并行化的可编程器件,经过针对性的硬件设计,能够兼顾计算性能与功耗,实现算法在硬件平台的加速设计。在此背景下,本文以基于无监督学习的图像深度估计算法为切入点,实现该算法的硬件加速设计。
本文首先选用对硬件友好的Goard算法方案作为基准方案,为了匹配硬件的计算能力,必须减少模型的参数量以及计算量。对此,本文在损失函数设计中提出多尺度结构性相似度指标,充分描述图像之间的差异;重构算法方案的模型结构,并使用定点化量化方案;针对重构后的模型,设计动态学习率以及提出迭代训练的模型重训练方式。最终,本文在Goard算法方案的基础上得到一个高精度且精简的beta算法方案,参数量减少至基准方案的十五分之一,为5.3MB,计算量减少至基准方案的三分之一,为 5.6GOPs,在KITTI 2015数据集中的绝对均方根误差为4.270,比基准方案降低了4.5%。
结合算法模型的结构特点以及硬件平台的资源限制,本文协同设计FPGA中处理系统(Processing System, PS)和可编程逻辑(Programmable Logic, PL)两部分,采用特征图数据驻留的并行化方案,设计定制化的数据流收发逻辑。同时,本文针对反卷积运算模块提出融合上采样计算的设计方法,针对最大值池化运算模块提出跳跃滑窗模拟输出的设计方法,实验结果表明,优化后两个模块参与的运行时间分别减少68.9%和34.8%。最终,本文完成算法模型在MZ702N硬件平台的加速设计和系统验证,所实现的计算性能为6.13GOPS,功耗为2.512W,性能功耗比为2.44GOPS/W,运行速度为1.09fps。
本文完成了基于无监督学习的图像深度估计算法研究以及算法模型在FPGA平台的硬件加速设计研究,为后续相关研究工作提供了可靠的参考方案。
本文首先选用对硬件友好的Goard算法方案作为基准方案,为了匹配硬件的计算能力,必须减少模型的参数量以及计算量。对此,本文在损失函数设计中提出多尺度结构性相似度指标,充分描述图像之间的差异;重构算法方案的模型结构,并使用定点化量化方案;针对重构后的模型,设计动态学习率以及提出迭代训练的模型重训练方式。最终,本文在Goard算法方案的基础上得到一个高精度且精简的beta算法方案,参数量减少至基准方案的十五分之一,为5.3MB,计算量减少至基准方案的三分之一,为 5.6GOPs,在KITTI 2015数据集中的绝对均方根误差为4.270,比基准方案降低了4.5%。
结合算法模型的结构特点以及硬件平台的资源限制,本文协同设计FPGA中处理系统(Processing System, PS)和可编程逻辑(Programmable Logic, PL)两部分,采用特征图数据驻留的并行化方案,设计定制化的数据流收发逻辑。同时,本文针对反卷积运算模块提出融合上采样计算的设计方法,针对最大值池化运算模块提出跳跃滑窗模拟输出的设计方法,实验结果表明,优化后两个模块参与的运行时间分别减少68.9%和34.8%。最终,本文完成算法模型在MZ702N硬件平台的加速设计和系统验证,所实现的计算性能为6.13GOPS,功耗为2.512W,性能功耗比为2.44GOPS/W,运行速度为1.09fps。
本文完成了基于无监督学习的图像深度估计算法研究以及算法模型在FPGA平台的硬件加速设计研究,为后续相关研究工作提供了可靠的参考方案。