论文部分内容阅读
现实世界中大多问题的求解都可通过一系列复杂目标的优化过程来实现。目前,大规模和动态交互网络下的分布式优化问题,由于其求解机制中不需要集中式的全局信息,而是通过局部信息下多个求解单元的分布式自主决策,实现对复杂优化问题的有效求解,正吸引着越来越多研究者的关注。在动态交互网络中,为了实现分布式优化问题的有效求解,需要对大量分布式求解单元之间交互行为的复杂性进行分析,需要在局部不完全信息下建立分布式求解单元的决策结构模型,同时还需考虑时变交互网络的动态演化对分布式优化算法设计上的影响。为此,本文提出了基于非合作博弈的分布式优化问题研究框架。在不同的信息交互条件下,通过建立相应的博弈研究框架,将优化问题中存在交互行为的决策个体建模为博弈中的参与者,通过为参与者建立相应的博弈模型保证决策的有效性,配合博弈中的策略学习算法,实现参与者决策行为的动态演化,并在博弈的均衡处实现对分布式优化问题的最优求解。本文的主要工作包括:(1)分析和总结了分布式优化理论的研究现状和存在的问题,建立了分布式优化问题与基于非合作博弈研究框架之间的一般性联系,提出了利用博弈参与者决策的动态演化过程模拟优化问题求解过程的模拟分析方法。(2)针对双向时变信息交互下的分布式优化问题,建立了基于状态量序数势博弈的研究框架,实现对分布式优化问题的有效求解。在该框架下,通过将分布式优化问题映射建模为基于状态量序数势博弈模型,提高了优化问题模型设计上的自由度,保证了博弈模型对双向时变信息交互网络的适应性,在局部信息条件下通过为博弈参与者建立相应的收益函数,确保了博弈均衡与优化问题全局最优解的一致性。(3)针对基于状态量序数势博弈模型,提出了基于收益的基准策略学习算法。在双向时变信息交互下,通过利用参与者自身的决策信息和收益信息,实现其决策行为的动态更新,并验证了更新过程收敛到博弈模型的均衡处。(4)针对单向时变信息交互下的分布式优化问题,构建了基于状态量弱非循环博弈的研究框架。在该框架下,建立了基于状态量弱非循环博弈模型,实现了对决策个体之间单向时变交互行为的分析和刻画,揭示了单向时变信息交互网络对博弈最终结果的影响,实现了收益函数对局部、时变和单向信息的适应性,并验证了在博弈均衡处个体决策行为最优与全体决策行为最优的一致性,实现了对分布式优化问题的有效求解。(5)针对基于状态量弱非循环博弈模型,设计了基于博弈参与者惯性的策略学习算法。在单向时变信息交互下,实现了博弈参与者决策行为的动态更新,并验证了博弈演进过程中的决策行为收敛到博弈的均衡处。