【摘 要】
:
随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得
【机 构】
:
计算机软件新技术国家重点实验室(南京大学)
【基金项目】
:
江苏省自然科学基金项目(BK20160066)~~
论文部分内容阅读
随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设,在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前,通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习
其他文献
“平行线分线段成比例定理”系初中几何第二册第211页ξ5.2节内容.全节共需授4课时.我说课的内容是第一课时,ξ5.2节内容是学习全章的基础和关键,而第一课时又是后2课时的基础和关
随着经济的不断发展,越来越多地建筑拔地而起,人们对生活质量的要求也越来越高,然而众所周知,一个建筑工程的施工与进行,不仅会带来严重的环境污染,而且庞大的工作量本身就是
美国印第安文学是美国文学的起点,也是其重要组成部分,其大部分早期作品体现了归家、回归模式,尽管后来受到了占据主流地位的白人文化和其他多元文化的影响,作品内容发生了一
日本福岛第一核电站运营商东京电力公司日前表示,为控制福岛核电站内不断积聚的核污水,该公司已经开始向大海中排放地下水,并声称排放的污水符合法定辐射安全标准。
目的 本研究旨在检测HGF和c-met在大肠癌组织中的联合表达情况及其在大肠癌侵袭转移过程中的变化规律。 方法 本实验采用荧光实时定量PCR方法检测30例大肠癌组织及切端
在我国,有相当多的企业还坚守传统的物资采购模式而忽视信息化技术下的电子商务采购模式.这在很大程度上,可能还是这些企业对于基于电子商务的物资采购管理不太了解.本文旨在
北京青年政治学院将优秀传统文化融入大学生思想政治教育,使学生通过必修课、选修课等课程的学习获得对中华优秀传统文化经典的体认,并通过第二课堂践行与感悟所学的中华优秀
当前,由于社会发展速度的进一步加快,社会对人才的需求也越来越大,标准更是日益提升。所以,为了可以向社会输送更多的复合型人才,在具体的高校发展过程中,也强化了对创新创业
对“九五”节水灌溉的主要做法和经验及成效进引了总结。主要成效有 :用水效率大幅度提高 ;进一步改善了农业生产条件 ;支持了城市和工业发展用水 ;促进了农业结构调整 ;促使
目的 促凋亡蛋白BAD(Bcl-xl/Bcl-2-Associated Death promoter)属Bcl-2家族成员,其活性形式即未磷酸化BAD与促生存Bcl-2家族成员Bcl-xl蛋白结合并抑制其作用,从而使细胞发