异步广义优势行动者-评论家及其在自动驾驶中的应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:ch101732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先描述了自动驾驶的历史并对深度强化学习的基础理论进行了介绍,随后在策略梯度的基础上提出了异步广义优势行动者-评论家(Asynchronous Generalized Advantage Actor-critic,G-A3C)算法,并将其用于自动驾驶的决策之中。策略梯度可以直接通过最大化累积奖励去优化非线性函数逼近器(如神经网络)的参数。在策略梯度中可能存在两个问题:(1)样本不符合独立同分布且有时序上的相关性,(2)策略梯度有很高的方差。针对于第一个问题,本文采用了并行的策略,即在同一时刻让智能体与不同的环境实例交互,解耦时序相关性,利用异步梯度下降稳定地优化非线性函数逼近器。对于第二个问题,通过对策略梯度的理论分析,认为行动者-评论家算法中的优势函数能够减小梯度方差,但是由于引入了对价值的估计,使得在方差减小的同时偏差也会变大。本文通过对行动者-评论家中的优势函数进行多步评估,将偏差控制在一定范围内的同时最小化方差。基于本文提出的异步广义优势行动者-评论家,在CARLA自动驾驶仿真平台上进行自动驾驶决策仿真。实验中策略网络的输入为传感器采集到的图像信息和汽车自身的信息,输出为控制信号。为了更好的提取图像特征,本文采用了残差网络作为图像特征提取网络,并且由于异步梯度下降中每次仅采用一个样本计算梯度,改进算法利用组归一化加速网络的收敛。与此同时,本文利用循环神经网络解决部分可观测问题。针对于自动驾驶这一特定任务,本文也设计了关于速度、转向、碰撞以及侵占的奖励函数。最后,基于CARLA平台的仿真模拟实验表明,本文提出的异步广义优势行动者-评论家在自动驾驶决策中的是十分有效的。
其他文献
在新一轮医改中,国家尤其重视县级医院的建设与发展。在分级诊疗建设进程中,更是提出将县域内就诊率提高到90%左右,基本实现大病不出县。可见,县级医院在我国医疗卫生事业建设中肩负着重任。而新技术是提高医疗技术水平的重要方式,是医院发展的基础,更是提高医疗服务水平与核心竞争力的重要驱动力。县级医院对医学新技术的转化情况直接关系到对基层的服务能力与质量。医生工作在临床一线,往往是使用医学新技术的主要发起人
智力在个人发展和社会生活中扮演着重要的角色,而对智商的研究也一直是学术界的热点。智商是一个不可直接测量的抽象概念,它是个体记忆、思维、应变等多方面能力的综合体现,因此在研究过程中有必要对不同认知域的智商进行探究;随着神经影像学的发展,更多的研究者试图借助这些新的技术来对智力的神经机制进行探索。这些研究大多都是借助于某个单一模态的神经数据,而不同的脑成像技术都有其各自的优点和不足。如果能结合多个模态
混凝土管广泛应用于市政给排水工程中,然而由于混凝土是脆性材料,延性差,易开裂,埋于地下的混凝土管在使用过程中一旦开裂,管承担运输的生活污水、工业废水等腐蚀性污水可能
地震作为最具破坏力的突发性灾害之一,给社会造成了巨大的人员伤亡和经济损失,而我国处于环太平洋地震带和欧亚地震带之间,发生破坏性地震的风险极高。随着我国城镇化发展水
随着课程改革的深入和教师专业发展的推动,以校本培训来促进课程改革以及教师专业发展的深化实施已经成为一种基本共识。但是目前的校本培训仍然存在缺乏校本培训需求分析的问题,这制约了校本培训的适切性,因此进行校本培训需求研究就成为提高改进教师教学的重要课题。校本培训所拥有的促进学校及教师共同发展的特性决定了校本培训需求分析不能仅从教师个人层面进行,还需要结合学校组织层面特点及教师承担的工作任务来分析教师需
沥青路面是由不同材料组成的多层结构体系,各结构层材料的特性直接影响到整个路面结构的受力性能和使用性能。路面开裂是沥青路面的主要破坏形式之一,有的是面层直接开裂,有的是基层开裂反射到面层导致开裂。路面各结构层是典型的多相复合材料,其骨料的颗粒形状及分布形态、骨料间的粘结状态等对路面开裂都有一定的影响。本文运用离散元PFC2D,采用非线性模型定义颗粒之间的接触,在细观层次上开展数值计算,模拟沥青路面在
环境问题的恶化使得集成了分布式可再生能源发电的微网得到了越来越高的重视。可以预见,大规模的微网(Microgrid,MG)接入配电网参与运行已成为配电网发展的必然趋势。在未来,配电网中将处处可见含源/储/网/荷的微网系统,这对提升分布式可再生电源的消纳、改善系统的可靠性具有重要作用。然而,微网的种类繁多、形态各异,它们的高渗透使配电网运行时刻处于动态变化之中,给配电网的可靠、安全运行提出了挑战性的
目的:通过观察白藜芦醇对小鼠急性T淋巴细胞白血病(T-cell acute lymphoblastic leukemia,T-ALL)细胞凋亡的作用,分析凋亡相关蛋白Bcl-2/Bax、P53的变化,阐明白藜芦醇抗T-ALL作用的细胞凋亡机制。方法:1.实验分组:将18只雌性C57BL/6小鼠随机分为3组:正常对照组(Con组)、T-ALL模型对照组(Model组)和白藜芦醇(100mg/kg/d
随着工业技术的不断进步及非线性装置的广泛应用,谐波污染现象日益严重,这不仅造成电能质量的下降,而且危及电网的安全稳定运行。有源滤波器(Active Power Filter,APF)作为一种新型电力电子装置,已成为人们公认的一种动态抑制谐波、实时补偿无功的有效手段。传统的APF因开关器件耐压能力及开关频率的限制,无法应用到中压场合。因此,级联H桥型APF逐渐成为中压领域的研究热点,同时也是本文的重
网格技术在过去几年经历了一场巨大的革命。这是由于分布式发电、可再生能源(即太阳能、风能、生物质能等)和能源储存的参与增加,以满足电网的负荷需求。所有这些因素都有助于提供更可靠、可持续和清洁的电力。然而,这些因素也给能源管理带来了许多挑战,使其更加复杂。传统的电网是基于一种集中的方法,在中央控制器的帮助下,将所有的信息集中在一个点上,然后进行优化,但是这种方法增加了计算负担,使其更容易发生单点故障。