【摘 要】
:
强化学习是机器学习领域的一个重要分支,它采用学习与智能理论的一个基本想法——“通过与环境互动进行学习”来求解序列决策问题。由于其独特的“试错式(trialand-error)”
论文部分内容阅读
强化学习是机器学习领域的一个重要分支,它采用学习与智能理论的一个基本想法——“通过与环境互动进行学习”来求解序列决策问题。由于其独特的“试错式(trialand-error)”学习机制,近年来得到越来越多研究者的关注。本文尝试从拓宽算法应用范围、改善学习效率等角度对强化学习算法进行研究,主要工作和创新如下:首先,针对不同马尔科夫决策过程(Markov Decision Process,MDP)中的相似度量问题,探讨了一种改进的相似度量算法,避免了先验知识和状态空间的约束,拓宽了算法的应用范围。其次,针对聚焦对象Q学习算法的复杂度和稳定性问题,探讨了一种简化的聚焦对象Q学习算法(Simplified Object Focused Q-learning,SOF-Q),通过采用新的控制策略来规避忽视状态空间带来的风险,仿真结果表明,SOF-Q算法在计算量和收敛稳定性上都有一定程度的改善。最后,针对OF-Q和SOF-Q中的控制错觉问题,基于Dyna架构改进了聚焦对象Q学习算法,通过将Dyna架构与聚焦对象的马尔科夫决策过程相结合来进行全局Q值的估计,利用了两者在状态空间探索利用上的优势,仿真结果表明,该算法在达到全局收敛性和避免控制错觉方面有优势。
其他文献
随着人们安全意识和对公共安全要求的不断提高,在公共场所安装监控摄像头变得越来越普遍,与此同时,视频数据的数量也呈指数级增长。然而在监控视频记录的数据中,只有少部分记
随着国家乡村振兴战略的推进和脱贫攻坚工作的进一步开展,农村劳动力转移就业工作的相关问题日益严峻。长期以来,农村劳动力的就业质量问题掩盖于数量问题之下,未引起足够重视。另外,打造劳务品牌,实现就业转移作为农村劳务输出的重要途径之一,在吸纳贫困人口就业、实现劳务对接扶贫方面发挥了重要作用。本文致力于从新公共服务理论和就业相关理论出发,并结合品牌劳动力的就业现状,对“天镇保姆”的就业质量展开分析,并对“
党的十六届五中全会提出了建设社会主义新农村的总的要求是“生产发展、生活宽裕、乡风文明、村容整洁、管理民主”。“三农”问题在我国社会发展中居于如此重要的地位,不仅
随着智能手机的普及,人们对手机依赖达到了前所未有的程度,对语音通话、流量使用有着大量的需求,这就要求各大电信运营商能够提供方便快捷的充值方式,与此同时市面上的充值渠
中兴通讯作为全球领先的通信系统、终端、业务平台的研发、制造商,产品已经成功进入欧美、非洲等30多个国家和地区,更是中国三大电信运营商3G设备的主要供应商之一。从2009年
学术管理是指对高校中学术相关事务与活动的管理,学术管理是高等教育管理的核心,正确的学术管理是高校健康发展的一个方向标,是高校学术发展的重要决策,是高等教育管理的本质
伊斯兰金融模式(IFM)在苏丹的经济中扮演着重要的角色。本论文研究了苏丹银行业的伊斯兰金融模式对苏丹经济的影响。伊斯兰金融模式包括直接和间接模式。直接模式指的是成本
随着新一轮电力体制改革开展,中央9号文的下发,“放开两头,关注中间”渐渐成为新电改的重点趋势,在此基础下,结合我国国情,建立起适应输配电价改革的输配电成本监审制度迫在眉睫。本文在海量汇集国外输配电价改革进程、成本监审的理论与实践基础上,加以分析处理。主要以英国电力市场为例,研究其监审机构对于电力企业监审制度、措施及流程,分析其标准性和合理性及其监审环境和我国的相似之处以及对于我国的可借鉴之处;并基
风力发电技术日益成熟,已成为清洁能源的重要形式。国家强调绿色、环保、可持续发展,注重发展风电等绿色环保产业。风电产业发展过程中,实现准确判断风电机组部件运行状态,有效评估机组重要部件的剩余寿命以及合理安排机组维护方案是目前亟待解决的问题。轴承作为风电机组的重要部件之一,对风电机组能否正常运行有很大的影响,因此有必要对风电机组轴承进行状态评估和寿命预测。本文以轴承为主要研究对象,论文具体工作如下:(
电力线通信(Powerline Carrier,PLC)是指以电力线作为传输介质,将信息调制到电信号上进行数据传输的一种通信技术。随着智能家居和智能电网的普及,将有大量的终端设备亟待接