一种合作Markov决策系统

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:qdmarie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习中,强化学习是一个重要的研究领域。Markov决策过程(MDP)是强化学习的重要基础,在一般的Markov决策系统中,只考虑一个智能体的学习演化。但目前诸多问题中只考虑单个智能体的学习演化有一定的局限性,越来越多的应用中都涉及到多个智能体。进而引入一种带有两个智能体的联合Markov决策系统(CMDP),该系统适用于两个智能体之间合作决策的学习演化。智能体之间存在合作或博弈两种类型,文中重点研究合作类型的CMDP,在此类学习模型中,智能体交替执行行为,以社会价值作为求优准则,寻找最优策略对(π*
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
从历史文化名城的保护与发展提升相协调的角度出发,探讨在历史名城保护背景下的旧城改造策略,重点就交通解决策略进行研究,并结合西安顺城巷棚户区改造的具体实践,探讨解决古
乡村振兴,新型职业农民培育是关键,高职院校作为对社会需求做出快速反应的高等教育机构,培育新型职业农民责无旁贷。高职院校应积极开展学历继续教育,提高广大农民的文化教育
故乡记忆与文化认同作为一种生命体验成为众多作家的创作动因与经验资源,迟子建同样以此构建出自己的文学世界。在三十余年的创作生涯中,苍茫北国这一独特的文化场域为迟子建
4C延续性护理是一种新型的护理模式,以美国的奥马哈系统(omaha system)为理论框架,其内容涉及一系列具有全面性(comprehensiveness)、合作性(collaboration)、协调性(coordin
南水北调工程是我国的战略性工程,中线一期工程的通水可有效缓解受水区水资源紧张问题,但同时也对周边环境产生一定程度的影响。从地表径流补给、地下水变化、水质变化、生物
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
一、导学案之我见导学案中的“导”就是引导、开导、疏导。就如张海晨在《高效课堂导学案设计》中所说:“导学案与我们的教案相比,它偏向于导学,追求的是‘自学’和‘创新’,它把
指纹图像增强在自动指纹识别系统中有着非常重要的地位,是指纹识别系统研究的重点之一.根据现有方向滤波器的特点和使用,采用一种基于指纹方向图的具有大小自适应性的方向滤
<正>函数的性质是求解函数问题的"利器",也是高考考查的重点内容。尤其是对于抽象函数问题,利用函数的性质,可化繁为简,优化解题过程。一、利用周期性,回归已知例1定义在R上