论文部分内容阅读
近年来,关于深度强化学习的研究受到了广泛的关注并取得了大量的研究成果。如何有效促进智能体进行策略优化是深度多智能体强化学习领域的重要研究问题,然而,在有效地解决多智能体环境下的策略优化问题方面,仍存在一定的局限性与挑战。首先,从环境的角度,既有的深度强化学习算法对于环境中多元感知信息的处理存在一定的局限性;其次,从强化学习算法的角度,既有算法存在估值偏差的局限性以及对奖赏值中噪声处理的局限性;最后,从多智能体系统的角度,既有算法在面对独立学习智能体时,存在难以实现策略协同优化的局限性,以及面对非静态对手时,存在对手判别不准确的局限性。针对上述挑战,本文聚焦于基于深度强化学习的多智能体策略优化研究,从环境、强化学习算法以及多智能体三个角度展开,对既有算法存在的局限性进行分析,并提出相应的解决方法。论文的主要工作内容如下:首先,本文考虑多模态信息输入的智能体策略优化问题,针对既有算针对多源感知信息输入的局限性,提出了基于分离式多模态输入的强化学习框架,拓展了强化学习算法处理多模态输入的能力。进一步,针对一般注意力机制对多模态信息输入权重分配的局限性,提出了层次注意力机制,实现了多模态间以及模态内的注意力权重分配,增强了多尺度的特征提取能力。最后,针对LSTM网络处理多模态输入的局限性,对LSTM进行了拓展,提出了基于多信息流的LSTM网络结构,实现了对多源信息输入的有效处理。本研究增强了既有算法处理多模态信息输入的能力,有效地利用多模态信息实现智能体的策略优化。其次,本文考虑了噪声环境下独立学习智能体的估值纠偏与策略优化问题,针对强化学习算法存在估值偏差的局限性,提出了基于双权估计器的WDDQN算法,实现了有效的估值纠偏。接着,针对既有算法对奖赏值中噪声处理的局限性,提出了奖赏值网络RN实现了有效的降噪。同时,针对多智能体环境中,既有算法难以促进独立学习智能体实现协同收敛优化的局限性,提出了宽容的奖赏值网络LRN,有效的促进智能体之间的协同策略优化。最后,针对多智能体系统中策略优化效率偏低的局限性,提出了调度经验回放策略SRS,有效地提升了策略优化的效率。综上,本研究有效地实现了深度强化学习算法的估值纠偏,促进了多智能体间策略协同优化,以及帕累托最优纳什均衡策略的求解。最后,本文考虑了面向非静态对手环境下的多智能体策略优化问题,针对多智能体环境下非静态对手的挑战以及既有算法使用单一策略来应对非静态对手的局限性,提出了基于贝叶斯策略重用的deep BPR+算法,有效应对非静态对手的复杂行为。提出使用对手模型来构建修正的置信模型RBM,从奖赏值信号和对手行为型号双重角度实现准确的对手策略检测。此外,提出使用蒸馏策略网络DPN作为应对策略库,实现了对未知策略的快速学习、高效的策略存储与重用。综上,本研究实现了准确的对手类型检测以及高效的策略重用,对于应对多智能体环境下非静态对手的多智能体策略优化问题具有一定的指导意义。综上,本文以基于深度强化学习的多智能体策略优化为研究目标,从环境、强化学习算法以及多智能体系统三个角度展开研究,深入探讨了面向多模态感知信息输入的智能体策略优化问题、面向噪声环境下独立学习智能体策略优化问题,以及面向非静态对手环境下的策略优化问题,并通过实验论证了本文研究成果的有效性。本研究兼顾工程实践与科学研究,对使用强化学习算法解决实际问题起到了一定的指导作用。同时,为多模态强化学习、独立学习智能体的策略优化、帕累托最优纳什均衡策略的求解以及应对非静态对手等领域提供了一定的参考价值。