搜索筛选:
搜索耗时0.0963秒,为你在为你在102,285,761篇论文里面共找到 3 篇相符的论文内容
类      型:
[学位论文] 作者:时圣苗,, 来源:苏州大学 年份:2020
深度强化学习方法将深度学习与强化学习相结合,目前已在多种复杂决策任务的处理中展现出了强大的通用性并取得了突破性的进展。利用深度神经网络构建网络模型并根据强化学习...
[期刊论文] 作者:何斌,刘全,张琳琳,时圣苗,陈红名,闫岩, 来源:自动化学报 年份:2021
时间差分算法(Temporal difference methods,TD)是一类模型无关的强化学习算法.该算法拥有较低的方差和可以在线(On-line)学习的优点,得到了广泛的应用.但对于一种给定的TD算法,往往只能通过调整步长参数或其他超参数来加速收敛,这也就造成了加速TD算法收敛的方......
[期刊论文] 作者:何斌,刘全,张琳琳,时圣苗,陈红名,闫岩, 来源:自动化学报 年份:2019
相关搜索: