搜索筛选:
搜索耗时0.0443秒,为你在为你在61,042,061篇论文里面共找到 4 篇相符的论文内容
类      型:
[学位论文] 作者:宋天恒,, 来源:北京化工大学 年份:2016
策略评价和学习控制是强化学习问题中两大主要任务。其中策略评价过程是指在给定策略下,对特定起始状态之后可获得的未来奖赏折扣和的期望值做出估计。近年来,许多基于时域差...
[学位论文] 作者:宋天恒, 来源: 年份:2011
分批补料发酵过程的反应特点包括强非线性、时间滞后、参数时变性以及生物状态量难以实时测量等,对产物、底物和时间消耗进行直接的在线控制非常困难。因此,离线优化成为了改善各个生产指标的主要手段。另外,这种复杂的优化包含有多个不可比较的甚至是互相矛盾......
[期刊论文] 作者:宋天恒,李大字,高彦臣,, 来源:北京化工大学学报(自然科学版) 年份:2011
将分布式Q学习算法与Pareto排序法相结合,提出了一种利用强化学习算法解决多目标优化问题的策略。该策略充分利用Q学习语句式的奖赏机制来描述问题的多重目标函数,并结合一般的......
[期刊论文] 作者:李大字,宋天恒,靳其兵,谭天伟,, 来源:化工学报 年份:2011
发酵过程优化问题通常包含有互相冲突的多重优化目标,另外反应本身具有诸多复杂性。提出一种基于Pareto的分布式Q学习多目标策略,用以求解赖氨酸分批补料发酵过程流加速率轨...
相关搜索: