【摘 要】
:
近几年来人工智能领域不断发展,其中深度强化学习作为其核心算法,它将具有感知能力的深度学习技术和具有决策能力的强化学习技术相结合,已经广泛地应用于工业制造、机器人控
论文部分内容阅读
近几年来人工智能领域不断发展,其中深度强化学习作为其核心算法,它将具有感知能力的深度学习技术和具有决策能力的强化学习技术相结合,已经广泛地应用于工业制造、机器人控制、仿真模拟、游戏博弈等领域。深度强化学习属于计算密集型算法,目前主流的训练深度强化学习的硬件框架为CPU+GPU,但是GPU的高功耗使得难以在移动设备中部署。FPGA是一种可编程逻辑器件,具有低功耗、可配置、计算资源丰富等特点,适合用于作为深度强化学习中的计算设备。DQN算法是深度强化学习中的一个重要算法,它使用神经网络感知环境产生动作的Q值,并且使用了经验池和目标网络的方法来稳定训练。在此背景下,本课题使用CPU+FPGA的硬件框架,实现了DQN算法的训练。本课题使用PYNQ平台,该平台基于CPU+FPGA硬件框架,使用Python语言库对可编程逻辑进行调用,适合实现深度强化学习算法的训练。在此基础上,本课题对其中的DQN算法进行细致分析,针对其用到的经验池以及目标网络方法,使用Vivado HLS工具分别设计出动作网络、评估网络、目标网络三个IP模块用于加速计算,并将其集成到整个系统的硬件通路中。最后在Jupyter Notebook开发环境下使用Python语言调用各个硬件模块实现DQN算法的训练过程。实验结果显示,在PYNQ平台下实现的DQN算法能够成功完成倒立摆任务,在约300幕任务后就能够逼近最高回报值,该实现的预估功耗仅为1.74W,对比同一算法在CPU和GPU上的实现结果,其能量效率分别为CPU的70.5倍和GPU的4.3倍,验证了本课题设想的深度强化学习低功耗、高效率实现方案的可行性。
其他文献
从新课程的角度审视新时期的教师角色,这就要求教师从传统的知识技能的传授者、教学的支配者、静态知识的占有者转变为新课程条件下的新型知识传授者,学生学习过程中的优秀引
<正>日前,上海市房产经济学会和闸北分会在闸北区房地产交易中心共同举办了"共有产权保障房分配和管理研讨会",来自政府部门、高校、企业和媒体代表,以及分会专委的领导等40
专业教育的本质是培养专业知识人才,应用型人才重专业、强技能的内在特性必然强化专业教育在整个教育培养过程中的地位,增加其所占份额。这样无疑会在某种程度上弱化学生健全
<正>如英国浪漫诗人拜伦在长诗《恰尔德·哈洛尔德游记》中所言,卢梭是个狂狷而倒霉的哲人——他在世时几乎没过上几天安稳日子:16岁离家漂泊,50岁时为逃避专制政权的迫害而
利用现代化的计算机技术 ,建立了一套针对炼油装置中设备图的计算机图库管理系统 ,此管理系统具有较强的功能 ,可对图库中的设备图进行各种实时操作 ,且可在局域网上发布运行
随着国际贸易的蓬勃发展,商品流通日益频繁,对商品运输过程中防护包装的要求也越来越高,不仅要求包装能够保证商品在流通过程中不发生损坏,而且要求包装材料为绿色环保材料。
目的 探讨飞行人员结节病的临床诊治及航空医学鉴定。方法 分析1例飞行人员结节病的临床诊断、治疗及航空医学鉴定,复习国内外相关文献,对飞行人员结节病的临床诊治及医学鉴
4月27日,《湖南省散装水泥、预拌混凝土、预拌砂浆“十三五”发展规划》(以下简称《规划》)专家评审会在长沙召开。评审组由省建筑材料研究设计院新材料研究所所长刘清汉任组长
对西藏曲拉中的酵母菌进行了分离、生理生化与分子生物学鉴定,同时对其中的酵母菌生物多样性进行了分析,最后研究了马克思克鲁维酵母M1和酿酒酵母B2对发酵乳特性的影响。本研
卫星移动通信是利用卫星中继实现地面、空中、海上移动用户之间或移动用户与固定用户之间的通信,它是移动通信技术和卫星通信技术相结合的一个发展方向。虽然地面移动通信技