【摘 要】
:
针对现存强化学习算法在输入数据维度较低时寻路用时较长,碰撞率高的问题,提出了一种基于深度强化学习的多主体机器人路径规划方法。该方法引入LSTM(long-short)网络处理不同维度的输入数据,选取NoisyNet-GA3C网络架构,应用A3C的多线程结构在gpu上训练,提高算法的训练速度,加强主体的学习能力。引入NoisyNet,在深度强化学习网络的全连接层添加噪声层,以对参数添加噪声进行训练的
【基金项目】
:
国家重点研发计划(2018YFB1701205);
论文部分内容阅读
针对现存强化学习算法在输入数据维度较低时寻路用时较长,碰撞率高的问题,提出了一种基于深度强化学习的多主体机器人路径规划方法。该方法引入LSTM(long-short)网络处理不同维度的输入数据,选取NoisyNet-GA3C网络架构,应用A3C的多线程结构在gpu上训练,提高算法的训练速度,加强主体的学习能力。引入NoisyNet,在深度强化学习网络的全连接层添加噪声层,以对参数添加噪声进行训练的方式来增加模型的探索能力。程序模拟结果表明,在输入数据维度较低时,添加噪声后的深度强化学习路径规划相比与现存算法缩短了主体到达目标的时间,并且有效降低了碰撞率。
其他文献
化学作业是初中化学教学工作的重要组成部分,在整个学科课程教学体系中扮演着重要角色。化学作业设计是教师课堂教学活动的重要组成部分,包括课前预习作业设计、课堂反馈作业设计、课后演练作业设计、拓展延伸作业设计等,是学生学习与巩固化学课堂知识的关键环节。本文通过对“双减”政策的理解与分析,结合初中化学作业设计的教学实际,思考并探索了在“双减”政策下初中化学作业设计的策略。
主题班会作为高校爱国主义教育活动形式之一,是提高教育质量的重要环节,其在大学的人才培养方面也扮演着重要的角色。本文结合德育"知、情、意、行"过程规律,创新爱国主义教育班会模式,对于有效弘扬大学生爱国主义教育起到积极的促进作用。
针对不同抽水井捕获半径及驻点获取方法存在局限性和误差的问题,以潜水、承压水2个类型污染场地为例,分别采用实测法、解析解公式法、数值模拟法3种方法计算单井捕获半径及驻点值;通过对比分析,研究了不同条件下3种方法的局限性及精确度;探讨了不同类型污染场地获取捕获半径及驻点的最适宜方法。结果表明:对于承压水类型,解析解计算值与实际观测值误差较小,为3.2%;对于水位降深相对于含水层厚度不可忽略的潜水类型,
近年来,重庆市农业数字化取得了阶段性成效,但整体上处于起步阶段,还存在软硬件投入严重不足、数字资源整合不全、数字资源集成应用不够、软硬件兼容性不强等问题。为充分利用重庆市丰富的农业数据资源,解决生产经营主体和农户对数字技术的迫切需求,需要加快重庆市农业数字化转型,努力形成产业数字化、数字产业化的农业高质量发展格局,建议进一步统筹和集成开发农业数据资源、进一步完善农业数字化支持管理政策、进一步推进山
目的 探讨奥沙利铂联合卡培他滨化疗对结直肠癌患者生存时间的影响,分析其疗效。方法 选择2017年4月至2019年2月在金华市中心医院就诊的83例结直肠癌伴肝转移患者作为研究对象,采用随机数字表法将患者分为观察组41例和对照组42例,其中对照组患者采用卡培他滨辅助化疗,观察组在对照组基础上联合奥沙利铂进行辅助化疗,观察两组患者治疗后近期疗效、2年生存情况及药物不良反应等情况。结果 随访发现,治疗后观
本文以丙氨酸甲酯和苯甲醛生成的西佛碱衍生物(1)为底物,进行固-液相转移催化苄基化反应,得到的苄基化产物(2)经酸水解合成了α-甲基苯丙氨酸,考察了相转移催化条件下苄基化反应的影响因素及动力学行为,该反应具有表面反应的特性及自催化反应的动力学特征,提出了固-液相转移催化反应的可能机理。
非正式更新由于在工业用地的正式更新途径面临制度困境而受阻的背景下发生和被允许,长期以来仅被视作特定时期内的权宜性和过渡性做法,因此当前政策和学术研究的导向总体上都倾向于在后续阶段中逐步促使其向正式更新完全转化。但对非正式更新在经济发展、功能完善、与周边联系等方面的作用和意义进行观察和研究后认为,非正式更新在城市发展中的效用路径与正式更新并不完全等同,有着后者较难有效替代的独有效益,时常更加有利于产