【摘 要】
:
复杂环境下的机器人通常表现为与环境的持续交互、自主性、自适应性等特点,这需要机器人能够结合环境状态和任务自主地进行决策。机器人决策需要真实有效地促进机器人达成任
论文部分内容阅读
复杂环境下的机器人通常表现为与环境的持续交互、自主性、自适应性等特点,这需要机器人能够结合环境状态和任务自主地进行决策。机器人决策需要真实有效地促进机器人达成任务目标、根据环境的变化进行调整且应该尽量满足实时性的要求。因此,如何提供有效的方法来应对复杂环境下机器人的决策是一个重要的研究课题。强化学习方法能够从与环境交互的过程中进行决策的学习,而深度学习能够有效的提取高维数据的特征信息。利用学习的技术分析解决机器人的决策问题已成为一个重要的方法手段。先验知识是机器人在进行决策学习之前获得的关于任务和环境的信息,因此采取特定的方法手段对先验知识加以利用能够提升机器人决策学习的速度和效果。为了克服复杂环境给机器人决策带来的问题,本文对如何利用机器学习技术和先验知识辅助机器人决策进行了建模、优化和评估。本文通过在不同环境中的可重复性实验展示了机器人决策学习的有效性。本文取得主要研究成果及创新点概述如下。1.针对高维环境状态空间下的机器人决策问题,设计并实现了一种基于强化学习的机器人决策学习算法。本文将机器人的决策过程抽象成一系列机器人与环境进行持续交互的离散事件,基于强化学习模型设计实现了基于学习的机器人决策学习算法,该算法可以有效的从高维环境状态空间中通过不断地累积经验进行决策的学习。2.针对环境状态空间探索过程中存在的盲目性和重复性问题,提出了一种基于示例数据的环境状态空间探索算法。为了克服对环境状态空间进行探索时的重复性和盲目性等问题,本文借鉴人类能够根据示例数据进行拓展学习的方式,进一步将示例数据引入到机器人的决策学习模型中,提出了涟漪式的探索策略和基于示例数据的状态空间探索算法:EX-D,从而对高维的环境状态空间进行探索。3.基于MountainCar和Breakout任务环境开展了实验,验证了上述算法的有效性。本文采用标准化的测试平台,针对不同的环境开展了相关的分析和实验。实验数据表明在某些环境下,基于学习的机器人决策算法比传统的机器人决策技术更有效,而使用EX-D探索算法能够将决策学习效果提升25%以上,同时也能提升算法的收敛速度。
其他文献
针对海军航空装备在高盐、高湿等海洋大气腐蚀环境下长期飞行所面临的腐蚀问题,本文通过聚合物前驱体法制备了内充液式RuO_2-TiO_2基pH传感器、多通道全固态改进型RuO_2-TiO_2基pH传感器及薄片式全固态新型RuO_2-IrO_2基pH传感器。对不同类型的pH传感器的电化学性能进行了研究,并在盐雾箱中模拟海洋高盐、高湿腐蚀环境,对传感器的长周期寿命进行研究。针对传统的玻璃pH电极存在的弊端
硬件木马是集成电路在设计、生产制造或封装中,被嵌入在芯片中的微小电路,其目的是使电路在特定条件下功能失效或泄露信息。随着集成电路的迅猛发展,芯片已经完全融入了我们生活的各个方面,在航天、国防、金融、通信等方面有不可或缺的作用,一旦这些芯片被插入硬件木马,将引起灾难性的后果。因此,开展硬件木马检测的研究十分迫切,具有现实意义。本文选题来源于国家部委项目,对在生产制造过程中植入芯片的硬件木马进行研究,
进入二十一世纪以来,社会公共安全事件频发,给各国民众的生命财产安全造成了极大的威胁,引起了各国民众和政府的高度关注。城市安全作为人们生活中息息相关的问题受到越来越
基于属性的访问控制(ABAC)模型能在分布式系统架构以及开放共享的网络环境等应用场景中提供细粒度的访问控制并解决大规模用户动态扩展问题,受到了访问控制研究领域的广泛关注。同时,当ABAC模型应用在较为复杂的信息系统中时,主客体属性繁多,策略集的规模庞大,安全策略之间可能会频繁地发生冲突。冲突是由一个访问请求同时匹配到多条策略并得到截然相反的授权决策导致的,策略冲突会造成系统无法对访问请求进行正确授
税收是政府筹集资金中重要的部分,它不仅能够保障国家的经济发展,还可以起到调节经济的作用。在“营改增”税改之前,我国现代税收体制处于营业税与增值税共存的局面,这使得已经缴纳过增值税的企业需要重复的缴纳营业税,加重了很多企业的税收负担。因此,我国于2012年开始在上海试点推行“营改增”,这一税改政策的到来彻底打破了我国两税并存的尴尬局面,历经四年半,营业税正式被取消。这次税改不仅消除了我国之前双重征税
人物分布不仅体现在空间与时间上的分布,也有以教育背景为内容的分布。民国时期是一个人物风起云涌的时代,而民国江西人物对近现代江西乃至中国的发展与走向都有重要影响。本
随着超高频(Ultra-high Frequency,UHF)近场射频识别(Radio Frequency Identification,RFID)技术在物流管理、图书管理、超市等场景的迫切应用需求,采用磁耦合原理的近场天线
本文主要研究的是时-空欠采样下信号参数和波达方向估计的方法。面对越来越宽的工作频段和带宽,直接运用传统的Nyquist采样条件对信号参数进行估计明显会加重对系统的压力,现
相控阵雷达因为具有体积小、质量轻、扫描速度快得到广泛的运用,如果将其频率提高,有望实现高探测精度、高分辨成像等。但是当相控阵雷达工作频率提升至甚高频段时,接收器中
国内高职院校都非常重视教学的监督、评价和引导工作,因此有必要建设一套适合高职院校发展需要的教学评督系统。当前我国高职院校教学质量评价系统在总体上还存在只重视评价、不重视平时监督引导的问题,在系统架构问题上,评价系统不能很好地适应移动终端运行的需要,致使日常教学的实时反馈和思想引导工作比较滞后。本课题结合实际,开发了一套用于教学质量总体评价和日常教学监督的跨终端的质量评督系统。系统分为PC Web端