【摘 要】
:
现代计算机的发展及人工智能的进步,让军事信息技术以及指挥信息系统,决策系统等领域也逐渐迈向智能化。兵棋推演作为战略形式推算的重要途径,也需要与信息技术以及人工智能相结合,才会在瞬息万变的国际形势中不落于下风。强化学习作为人工智能最热门的部分之一,非常适合应用于兵棋推演环境。研究者们通常使用图像作为强化学习训练的状态空间,舍弃了兵棋推演环境中蕴含的其他有用信息,例如各单位的位置、运动方向等。本文将人
论文部分内容阅读
现代计算机的发展及人工智能的进步,让军事信息技术以及指挥信息系统,决策系统等领域也逐渐迈向智能化。兵棋推演作为战略形式推算的重要途径,也需要与信息技术以及人工智能相结合,才会在瞬息万变的国际形势中不落于下风。强化学习作为人工智能最热门的部分之一,非常适合应用于兵棋推演环境。研究者们通常使用图像作为强化学习训练的状态空间,舍弃了兵棋推演环境中蕴含的其他有用信息,例如各单位的位置、运动方向等。本文将人工智能中的影响力地图与强化学习原有的图像状态空间结合起来,设计并实现了以深度强化学习为主的人工智能决策辅助,从智能态势描述层面入手,实时描述态势信息并做出快速应对,为决策系统提供信息化智能支持。本文的主要工作如下:(1)针对智能态势描述的研究,本文以小型智能对抗游戏Ms.Pac-Man为例,根据游戏的运行内部状态等信息计算得到影响力地图,设计了影响力地图与原有图像叠加的状态空间。为了证明本文提出的状态空间有效性,以图像状态空间作为对比进行了实验。实验证明,相较于传统连续图像状态空间,本文在训练速度提升59%,显存占用减少30%,内存占用减少50%的情况下,智能体最终的分数提高了10%。(2)强化学习中稀疏奖励问题也是目前技术难点,面向强化学习中的稀疏奖励问题,本文使用影响力地图来返回给智能体无环境奖励时的内在奖励。实验证明智能体最终的分数相较于无内在奖励时提高了约10%。(3)面向尝试结合人工智能与兵棋推演的开发者,本文设计并实现了强化学习在线交互式算法平台,能够在不改动原有兵棋推演环境的基础上为环境添加强化学习支持,并能够实时查看强化学习训练进度,可以为自定义的军事推演环境做一些参考。
其他文献
随着人工智能、大数据的快速发展,社会已经进入了算法社会.算法已经全面渗透于社会经济、生活及管理的运行.然而算法并非是完全客观、价值中立的技术.算法运行过程中产生的偏见及问题,其本质是社会偏见在人工智能时代的映射,逐渐显现侵害社会公众的人格平等权、隐私权,并对数据安全形成威胁甚至破坏,从而导致对社会危害现象的发生.因此,不应禁锢于算法中的技术乌托邦理念,通过把握算法偏见产生的环节及其存在的法律及事实风险,减少其因不确定性危害风险带来的对社会秩序的冲击,有必要及时建构法律和综合治理的风险防控体系,并将对算法偏
2018年是中国改革开放40周年,自1978年改革开放以来,中国的政治、经济、文化发生了翻天覆地的变化,而音乐作为一门艺术,在改革开放的宏观语境下也朝着更多元的方向发展。如果说20世纪初的"新文化运动"启蒙了中国"新音乐"的发展,那么1978年的"改革开放"则是中国音乐多元发展的重要转折。在《现代汉语词典》中,思潮指"某一时期内在某一阶级或阶层中反映当时社会政治情
《民法典》虽然对虚拟财产进行了规定,但理论上关于虚拟财产法律属性的争议依然存在.实质上,虚拟财产的民法规定只具有宣示性意义.即,立法主体并未从根本上解决虚拟财产的属性定位问题,依然需要司法主体根据实践需求进行具体认定.从刑法角度看,如何认识虚拟财产,尤其是如何看待电子数据与虚拟财产的关系,对司法适用无疑具有重要意义.在《刑法修正案(七)》中规定非法获取计算机系统信息数据罪之后,关于非法获取虚拟财产的行为定性更是在理论界引起争议.就虚拟财产而言,需要根据其内容进行类型化区分,为司法主体准确认识其属性提供合理
列维纳斯认为,他者的面容作为一种昭示着无限的自我表达者先于并且超越自我,它规定了主体的基本伦理维度并且传递出“汝勿杀”的道德律令.倘若将列维纳斯他者伦理中解构同一化的倾向彻底推进,并进一步清理其理论中人类优先性立场的残余,则可以提出动物面容的问题.思考动物的面容有助于消除功利主义生态伦理以人衡量动物或者生态整体主义伦理观忽视具体生活情境差异性的不足,使生态伦理由“自我—他者”转向“他者—自我—他者”的思考路径,从人赋予非人类他者伦理地位的介入式生态伦理,转向一种人最小限度地干预非人类他者的消解主义式生态伦