【摘 要】
:
基于马尔科夫决策过程框架研究了三维空间内隐蔽接敌策略的强化学习方法,定义了环境模型中的优势区域和暴露区域。针对高维状态空间策略学习所面临的维数灾问题,给出基于径向
【基金项目】
:
航空科学基金(20095196012)资助课题
论文部分内容阅读
基于马尔科夫决策过程框架研究了三维空间内隐蔽接敌策略的强化学习方法,定义了环境模型中的优势区域和暴露区域。针对高维状态空间策略学习所面临的维数灾问题,给出基于径向基神经网络(radial basisfunction neural network,RBFNN)的Q学习算法,说明了训练样本的分级采样方法,并针对不同情况下的接敌机动策略学习进行了仿真分析。仿真结果表明,借助于合理的分级采样方法,基于RBFNN的Q学习算法能有效生成隐蔽接敌策略。
其他文献
飞行校验对保证各类导航设备的精度符合性至关重要,完成飞行校验的核心部件是机载飞行校验系统,其中的飞机实时定位分系统对校验结果产生重要影响。本文对当前校验系统中较常
9月25日,湖北省医疗保险研究会在武汉正式成立。中国医保研究会、省民政厅、省人社厅领导,部分高校学者、医疗专家,各市州医保管理工作者参加了成立大会及第一届会员代表大会。
目的了解红芪中Al,Mn,Cu,Zn和Mo等人体必须微量元素的含量,并客观评价这5种微量元素对长期服用红芪人群的健康风险。方法在红芪道地产区甘肃省采样,采用ICP-MS法测定了红芪中
据第三次国家卫生服务调查显示,两周患病后采用自我医疗的居民占35.7%,其中农村占31.4%,城市占47.2%,“大病到医院、小病去药店”已经成为药品消费的主流意识。非处方药物协会副会长张
社会文明与社会精神的培育,是现代社会转变及其现代性建构及重建的重要任务,从国家、个人向社会的跃迁及其社会性的生成,决定着社会文明与社会精神之历史生成的艰难迟缓,诸多
实验以荷那龙罗非鱼(Oreochromis hornorum)为研究对象,在自然正常的养殖条件下,随机的抽取15尾荷那龙罗非鱼,取背侧肌、肝胰脏、肠和内脏脂肪组织四个组织的样,来分析不同组织