面向无人驾驶时空同步约束制导的安全强化学习

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:hutuxiaoshenxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深度强化学习系统并不能保证系统的安全性和复杂任务奖励函数设置的可解释性.为此提出了一种形式化时空同步约束制导的安全强化学习方法.首先,提出了一种形式化时空同步约束规约语言,接近自然语言的安全需求规约使奖励函数的设置更具有解释性.其次,展示了时空同步自动机和状态-动作空间迁移系统,保证强化学习的状态行为策略更加安全.然后,提出了结合形式化时空约束制导的安全强化学习方法.最后,通过无人驾驶汽车在高速场景变道超车的案例,验证所提方法的有效性.
其他文献
文章对Alpha通道的图像存储结构进行了底层剖析,从根本上阐述了Alpha通道对图像的作用机理,以求解决在图像处理以及图像识别过程遇到的理解困难.重点分析了在图像高级处理中的应用效果,给出了典型的图像处理范例进行操作剖析,从实验结果上对Alpha通道的特殊作用进行了印证.
研究近年来主流的目标跟踪算法.通过文献阅读和归纳对比,分析了使用生成式模型和判别式模型的目标跟踪算法.结果显示,对于存在复杂干扰因素的场景,采用第二类模型的目标跟踪算法的跟踪效果更好.文章为视频跟踪领域的研究者们提供了一个关于目标跟踪算法的客观分析.
探索“算法设计与分析”课程的一系列教学改革措施.将“对分课堂”的新型教学理念、教学方法和评价手段融入到教学过程中,根据教学内容特点灵活使用对分策略;以程序设计辅助教学系统为支撑,完成课程过程性考核评价;建设优质课程试题库、课程资源及拓展学习平台,为学生提供全面、持续的学习服务.教学实践证明,这些改革举措取得较好的教学效果.
近年来随着配电网运维智能化程度越来越高,大量的运维数据通过互联网实时交互,如何利用好这些数据为客户服务,同时降低企业运营成本显得十分重要,尤其须要解决实时分析、存储和反馈海量配网数据的问题.文章提出通过大数据技术Kafka、Redis、InfluxDB、Flink搭建配网数据中心,采用跨Android和IOS平台技术的Flutter开发移动APP的方式.该方式经验证,读写百万量级数据时间是秒级、实时计算时间是毫秒级,不仅降低了配网运营过程中的时间成本,还丰富了配网运行数据的查询手段.
共识算法是区块链中的核心技术,直接决定了整个区块链系统的运行效率.对现有的共识算法进行了总结,将其分为基于节点某种属性值证明的共识算法、基于节点投票机制的共识算法和类Paxos共识算法三类.详细介绍了三类共识算法的实现细节,并依据蒙代尔不可能三角理论进行对比研究,给出了共识算法的发展方向,为区块链共识算法的深入研究提供借鉴.
能耗限制的服务质量优化问题一直以来都是数据中心虚拟机资源管理所面临的巨大挑战之一.尽管现有的工作通过虚拟机整合技术一定程度上降低了能耗和提升了系统服务质量,但这些方法通常难以实现长期最优的管理目标,并且容易受到业务场景变化的影响,面临变更困难以及管理成本高等难题.针对数据中心虚拟机资源管理存在的能耗和服务质量长期最优难保证以及策略调整灵活性差的问题,提出了一种基于深度强化学习的自适应虚拟机整合方法(deep reinforcement learning-based adaptive virtual mac
针对灰狼优化算法(GWO)存在较为严重的收敛性缺陷问题,提出了一种基于杂交策略的自适应灰狼优化算法(AGWO).首先引入非线性收敛因子,以平衡算法的全局搜索性和局部开发性;其次引进遗传杂交策略,对灰狼群体以一定概率两两杂交以产生新个体,从而有效增强灰狼群体的多样性;同时为避免算法后期陷入局部最优解,受蝠鲼觅食策略的启发,引入蝠鲼觅食策略并加入了动态自适应调节因子以调节群体的多样性,有效提升算法的收敛精度及全局寻优性能.通过选取CEC2014中11个基准测试函数进行实验,与其他相关算法横纵向对比分析,多方位
基于句子级别的抽取方法不足以解决中文事件元素分散问题.针对该问题,提出基于上下文融合的文档级事件抽取方法.首先将文档分割为多个段落,利用双向长短期记忆网络提取段落序列特征;其次采用自注意力机制捕获段落上下文的交互信息;然后与文档序列特征融合以更新语义表示;最后采用序列标注方式抽取事件元素并匹配事件类型.与其他事件抽取方法在相同的中文数据集上进行对比,实验结果表明,该方法能有效抽取文档中分散的事件元素,并提升模型的抽取性能.
为了解决多AGV在动态不稳环境下的无碰撞路径规划和系统效率提升的问题,提出了基于时间窗的AGV无碰撞路径规划方法.首先建立了多AGV的避碰模型,并结合时间窗模型,将多AGV的无碰撞路径规划分为预先规划和实时规划两阶段,预先规划阶段进行多AGV无冲突时间窗的计算和最大化系统中AGV的流通量,实时规划阶段通过改变AGV在避碰模型上的占用优先级和局部重规划的方法进行动态避碰.最后以某智能仓储为应用案例进行仿真实验,证明了该算法能有效避免多AGV的碰撞,提高AGV的流通量,同时在动态环境下具有较好的鲁棒性和柔性.
为提高航空器飞行的安全性和平滑性,解决传统A*算法拐弯角度过大、搜索路径节点过多等问题,提出一种基于扇形领域扩展的同步双向A*搜索算法.首先,根据栅格图法扩展危险区域边界;其次,设计了基于同步双向搜索的A*算法,动态定义正反向搜索的目标节点.针对搜索角度有限问题,提出了在5×5领域内的扇形领域扩展策略,并设计了含有双重权重参数的评价函数以减少冗余点的产生.为验证改进算法的有效性,选取方形和不规则形状危险区进行仿真.结果表明改进的同步双向搜索算法搜索的路径更平滑;与传统双向A*算法的结果相比,在不同形状的危