【摘 要】
:
简述了强化学习的基本原理和特点,讨论了强化学习中评价函数的神经网络近似问题,重点分析了采用多神经网络近似评价函数的学习问题,实现了状态空间或任务的自动分解,提高了评
论文部分内容阅读
简述了强化学习的基本原理和特点,讨论了强化学习中评价函数的神经网络近似问题,重点分析了采用多神经网络近似评价函数的学习问题,实现了状态空间或任务的自动分解,提高了评价函数的推广能力.网络的学习是离线进行,并作为反馈控制器在线应用.并以A~学习为例,将强化学习应用于导弹的制导问题,仿真结果表明了强化学习在导弹制导或控制问题中的应用前景和有效性.
其他文献
实体关系抽取是自然语言处理领域的重要基础技术之一,同时也是信息抽取的一个关键子任务,有着重要的研究价值和广泛的应用场景。近年来,深度学习方法在实体关系抽取领域中得到了广泛的应用。不同于基于规则和基于统计的方法,深度学习方法能够借助神经网络自动抽取文本特征,在模型建立的过程中不断地进行特征的学习,减少了人工设计特征的不完备性。实体关系抽取任务主要采用循环神经网络和卷积神经网络模型架构,由于循环神经网
家族企业是以血缘关系为基础的一个或几个紧密联盟的家族,以家族利益最大化为目标,家族成员拥有足以控制企业所有权比重并对企业保持临界控制权的企业组织形式。近年来国内对
光纤传感器由于具有制备成本低、灵敏度高、抗电磁干扰能力强、抗恶劣环境等优点,而在油气工业、电力工业、土木建筑、航空航天、高速铁路等国民工业和国防技术等众多领域具
提出了一个新的阻高指数计算方法,计算和分析了1951~2001年北半球500hPa月平均高度场夏季东亚阻高指数.结果表明,虽然有阻高年多为Ⅲ类雨型,但未必发生长江洪水,长江洪水发生
高校学生正处在确立正确价值观的重要阶段,除了与家长和教师的沟通,他们还需要通过大量的阅读获取对世界的认知。因此,文章提出应将阅读推广作为高校图书馆工作的新常态,通过
公平是促使我们与陌生人合作的主要诱因,是区别于其他物种的标志。大量神经影像学的研究表明,背外侧前额叶皮层与公平的感知和行为有着紧密的联系,但这些研究缺乏对背外侧前
目的:了解我院中草药销售与季节变化的关系。方法:统计医院2005年及2006年两年各种中草药的销售情况并加以分析。结果:中药的总体销售情况随销售月份变化影响较大,主要影响因素有
本文利用1971—1988年各月逐日北半球500hPa高度场资料,对60°N上的阻塞高压活动进行了分析。结果表明,该纬圈上阻塞高压活动频率的纬向分布呈4波型,最大波峰值位于大西
【正】 一、理论假设人际交往技能是社会技能培养的主要内容之一,这一训练是借助一定的干预方案,帮助青少年儿童改善人际交往,尤其是同伴交往,提高对人际关系的感受、适应、
1五台山佛寺彩画的分布范围与影响因素五台山的总体范围以五台山佛教寺院群为核心,横跨晋冀两省的山脉体系,涵盖山西省的繁峙、代县、原平、五台、定襄、忻州,以及河北省的阜