论文部分内容阅读
强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ;最后讨论了强化学习目前所要研究的问题