改进深度强化学习的室内移动机器人路径规划

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:nosmallstar2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统深度强化学习在室内未知环境下移动机器人路径规划中存在探索能力差和环境状态空间奖励稀疏的问题,提出了一种基于深度图像信息的改进深度强化学习算法.利用Kinect视觉传感器直接获取的深度图像信息和目标位置信息作为网络的输入,以机器人的线速度和角速度作为下一步动作指令的输出.设计了改进的奖惩函数,提高了算法的奖励值,优化了状态空间,在一定程度上缓解了奖励稀疏的问题.仿真结果表明,改进算法提高了机器人的探索能力,优化了路径轨迹,使机器人有效地避开了障碍物,规划出更短的路径,简单环境下比DQN算法的平均路径长度缩短了21.4%,复杂环境下平均路径长度缩短了11.3%.
其他文献
使用深度强化学习解决单智能体任务已经取得了突破性的进展.由于多智能体系统的复杂性,普通算法无法解决其主要难点.同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满足策略的合理性.对于不存在最优解的实际问题,强化学习算法更是束手无策,将博弈理论引入强化学习可以很好地解决智能体的相互关系,可以解释收敛点对应策略的合理性,更重要的是可以用均衡解来替代最优解以求得相对有效的策略.因此,从博弈论的角度梳理近年来出现的强化学习算法,总结当前博弈强化学习算法的重
传统决策树通过对特征空间的递归划分寻找决策边界,给出特征空间的“硬”划分.但对于处理大数据和复杂模式问题时,这种精确决策边界降低了决策树的泛化能力.为了让决策树算法获得对不精确知识的自动获取,把模糊理论引进了决策树,并在建树过程中,引入神经网络作为决策树叶节点,提出了一种基于神经网络的模糊决策树改进算法.在神经网络模糊决策树中,分类器学习包含两个阶段:第一阶段采用不确定性降低的启发式算法对大数据进行划分,直到节点划分能力低于真实度阈值ε停止模糊决策树的增长;第二阶段对该模糊决策树叶节点利用神经网络做具有泛
偏标记学习指示例的唯一真实标记隐藏在一组候选标记之中,其目的为对候选标记进行消歧,最终学习到真实标记.现有方法只是就示例之间的相似性或者差异性进行了单方面考量,因此当示例的候选标记增多时会出现消歧准确率与分类准确率大幅度下降的问题.针对以上问题,提出了融合权重机制和改进SDIM的偏标记分类算法,在原SDIM(Partial Label Learning by Semantic Difference Maximization)算法的基础上,增加了最小化同类别示例之间欧几里德距离的操作,缩小了同类别示例之间的
为进一步提高云制造中资源的利用率,提出云制造环境下客户间协作形成联盟的成本分摊方法.联盟内客户相互协作,共享其匹配到的资源,对订单生产方案进行优化,充分利用联盟内闲置的资源,实现成本的节约.基于协作优化后的方案,构建客户合作成本分摊模型,并采用Shapley值分摊协作联盟的成本.通过数值实验分析表明,当客户订单中存在闲置资源,且当紧急需求的订单因资源的占用需要支付延迟成本时,客户间通过协作共享制造资源,能为联盟内客户带来成本的节约,同时闲置的资源得到利用,提高资源的利用效率.
近年来航运业数字化的加速,凸显出传统航运物流企业日常运营中存在的服务匹配与结算缺乏自动化、业务数据因缺乏透明度而不作为可信证据采信等问题.区块链具有的透明化与可信等特点可以结合物联网与数字货币等技术帮助航运物流企业以数字化转型针对性地解决问题.因此,通过分析合理转型路径,设计基于“蚁群-智能合约”算法作航运服务自动化匹配、基于区块链与物联网提供运输进程可靠追踪服务及基于数字货币实现海运运费高效结算.以太坊测试链上的模拟结果表明了转型方案的有效性,其对内降低运营与结算成本、对外增强业务信息透明度与可信度的价
针对人体运动损伤的快速修复问题,设计了一种基于机器视觉的低功率激光照射修复系统。系统的总体结构设计包括激光发射器、可见光跟踪系统、分光棱镜、可见光观测系统和红外光观测系统等部分,硬件设计中充分考虑到各模块之间的稳定性设计,保障光源的定位精度,避免出现过度严重的衍射现象;其中可见光图像跟踪系统中内置了高清CCD相机捕捉损伤部位的真实情况,跟踪系统还具备图像激光编码及灰度调整功能;在控制算法设计方面,
针对人群计数方法中存在的尺度变化和多层级特征融合不佳的问题,基于U-Net的编码器-解码器网络结构,提出一种自适应特征融合网络,来进行精准的人群计数。提出自适应特征融合模块,根据解码器分支的需要,高效地聚合编码器分支提取的高层语义信息和底层的边缘信息;提出自适应上下文信息提取器,从不同感受野下提取多尺度的上下文信息并自适应加权融合,提高网络对于人头尺度变化的鲁棒性。在ShanghaiTech、UC
意图识别是口语理解中的重要任务,关乎整个对话系统的性能.针对新领域人机对话系统中训练语料较少,构建可训练语料十分昂贵的问题,提出一种利用胶囊网络改进领域判别器的领域适应方法.该方法利用领域对抗神经网络将源域的特征信息迁移至目标域中,此外,为了保证领域意图文本的特征质量,对源域和目标域的特征表示进行再次提取,充分获取意图文本的特征信息,捕捉不同领域的独有特征,提高领域的判别能力,保障领域适应任务的可靠性.在目标域仅包含少量样本的情况下,该方法在中文和英文数据集上的准确率分别达到了83.3%和88.9%.
在采集在线学习信息时,普遍存在数据缺失的情况,使得课程资源推荐时可能因数据稀疏导致推荐的效果不理想.为了解决上述问题,基于端对端的深度学习框架,提出了融合知识图谱的多任务特征推荐算法(Multi-Layer Knowledge graph Recommendation,MLKR).基于多任务特征学习,在任务中嵌入知识图谱;在任务之间通过交叉压缩单元建立潜在特征和实体之间的高阶联系,从而建立推荐模型.实现了基于学习者目标、兴趣、知识水平的课程资源精准推荐.实验结果表明,MLKR推荐算法训练时长和预测准确率均
针对在特殊地区连续导航和组合导航冗余技术的问题,提出基于信息物理融合系统架构的BDS/GPS/SINS组合导航的旋翼无人机定位方案.以六旋翼为运载体,采用超紧组合导航结构和联邦式滤波结构建立模型,通过Simulink虚拟定位仿真,得到较为精确的位置信息.进一步搭建旋翼无人机物理融合定位系统实验平台,该平台的BDS/GPS接收机接收由NSS8000多星群模拟器提供的虚拟卫星导航电文信号,方便用户对CPS虚拟和现实环境的人机交互界面进行操作.通过定位信息融合进行基于BDS/GPS/SINS超紧组合导航的室内飞