论文部分内容阅读
学习自动机是一种强化学习技术,其基于一定的策略,通过与环境的不断交互,能够在由一系列行为组成的集合中选择出最优的行为。学习自动机具有算法简单、抗噪能力强、完备的理论证明、以及支持在线学习等优点,因此得到了大量的研究和应用。然而近年来随着复杂随机环境下多维函数优化等新问题的不断提出,目前学习自动机所存在的许多理论局限性逐步显现出来,这也在一定程度上限制了其得到更进一步的实际应用。为此本文将从学习自动机三大核心要素(行动集合,反馈集合和状态集合)角度出发,分别对两大子类学习自动机(有限行为集合学习自动机和连续行为集合学习自动机)展开拓展理论研究,以促进学习自动机理论体系的进一步完善,并在此基础上对学习自动机理论成果加以实际应用。本文主要工作可以归纳如下:第一,详细介绍了学习自动机的定义、工作机理和评价标准等基本理论,并进行了相应的归纳和总结。第二,从状态估计器和反馈集合角度,对随机平稳环境下的有限行为集合学习自动机算法进行理论拓展研究。首先,针对基于最大似然估计器学习自动机所存在的冷启动和初始化问题,从状态估计器角度出发,提出了一种新的改进贝叶斯估计器,该估计器的本质是对最大似然估计器进行拉普拉斯平滑,可有效解决上述问题。在此基础上,将上述改进型贝叶斯估计器和随机估计器相结合,提出了一种可变结构学习自动机算法GBSE,该方法有效解决了冷启动和高效收敛等问题。其次,针对目前有限行为集合学习自动机主要考虑二元环境的这一局限性,从反馈集合角度出发,结合一种适合众多实际情况的三元随机环境,给出了将二元环境学习自动机算法拓展到适用于三元环境的框架思路,该框架可有效解决三元环境下的学习问题。并据此框架对二元环境下典型的确定性结构学习自动机TFSLA(2N,N)、IJA(2N,N)和上述可变结构学习自动机GBSE进行拓展,分别提出了三元环境下的TI-TFSLA(2N,N)、TI-IJA(2N,N)、TI-GBSE。第三,从反馈集合和行动集合角度,对平稳和非平稳环境下以解决随机点定位问题为代表的连续行为集合学习自动机算法进行理论拓展研究。首先,针对目前随机点定位问题中也仅考虑二元环境这一局限性,从拓展反馈集合角度出发,构建了三元随机环境模型,进而提出了基于三元环境的学习自动机算法RWTA,该算法对搜索区间进行离散化并构建在离散点上随机游走的学习自动机。理论和实验表明,在收敛条件满足的前提下,RWTA算法可有效解决三元平稳和非平稳环境下的学习问题。其次,针对目前随机点定位算法所存在的一维空间局限性,拓展研究多维空间环境下随机点定位问题,提出多维随机点定位算法模型框架。该框架把多维空间中的随机点定位问题转化为多个一维空间下随机点定位问题,并对这些一维空间下随机点定位问题进行求解。理论和实验表明,该框架在收敛条件满足的前提下可以准确收敛到高维连续空间中的最优目标点。最后,利用前述拓展后的学习自动机理论研究成果解决实际应用问题。一方面,针对高噪声随机环境空间中的时空事件挖掘问题,分别提出了基于传统有限行为集合学习自动机和拓展可变结构学习自动机理论的两种时空事件挖掘学习自动机方法STP-TFSLA和STP-GBSE,其通过把随机事件的观测值转化为随机环境的反馈,并利用学习自动机能收敛到最优行为的特点,来确定出观测到的时空事件是否有规律可循。另一方面,针对高噪声复杂随机环境下的多维函数优化问题,提出了基于前述连续行为集合学习自动机理论成果的多维严格单峰函数优化方法MSPL-SUFO和多维多峰函数优化方法MSPL-MFO,其通过把受环境干扰的信息构建为随机环境,直接利用前述提出的连续行为集合学习自动机成果,就可以有效搜索到函数最优值。