基于深度强化学习的机器人推拨优化装箱问题研究

来源 :空间控制技术与应用 | 被引量 : 0次 | 上传用户:zhaomingze2631539
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三维装箱问题是指在满足容积限制、稳定性限制等条件下,将一定数量的物体放入较大容量的箱子中并使空间利用率最大的组合优化问题.三维装箱问题是典型的NP完全问题,通常采用启发式算法规划物体放置的位姿.在使用机器人完成装箱任务时,还要额外考虑机器人操作限制,如机械臂或末端执行器与物体或箱子之间的碰撞、机械臂运动轨迹的规划等,使得部分最优位姿不可行,只能将物体从更高处落下或者将物体放在最优位姿的附近.机器人在抓取、识别和放置时的不确定性也会导致最终放置位置与规划产生偏差.因此,本文提出基于深度强化学习的机器人三维装箱推拨优化方法,以最小化包装箱中物体放置位置的启发式算法分数为目标,通过推拨动作对于已放置的物体位置进行调整、归集,将物体朝角落中压缩,以腾出更多空间,提高装箱空间利用率,减小由于机器人操作不确定性对装箱结果的影响.
其他文献
天问一号环绕器有效载荷火星离子和中性原子分析仪(Mars Ion and Neutral Particle Analyzer, MINPA)用于探测行星际及火星空间环境中的离子和能量中性原子.在地火转移阶段,MINPA于2020年10月31日正式开机工作,获得了至2021年1月26日期间的太阳风监测数据.进入环火轨道后,MINPA于2021年11月13日进入科学探测模式,正式开始对火星空间离子和中性原子环境开展连续性的探测.
期刊
地外探测无人系统具有存储、算力和能量等资源受限的特点.以深度学习为基础的感知、定位和决策算法可有效提升无人系统的智能化水平,而这类算法通常需要高算力,难以直接应用于地外探测无人系统.首先针对剪枝和量化的深度神经网络模型轻量化方法,在公开数据集上对多种算法进行定量分析.其次,提出基于剪枝、量化的轻量化计算方案,实现了基于模块化配置的轻量化计算软件StarLight,对深度神经网络进行快速轻量化和性能评估,解决了模型难以直接应用到计算资源受限系统的问题.最后,基于StarLight,对应用于火星车实验系统中的
GNSS不同频点间的码伪距作差会引入信号的差分码偏差(DCB),包括GNSS卫星及地面接收机的DCB.本文提出一种地基GNSS接收机差分码偏差参数估算方法,首先由电离层文件参数作线性插值,计算出电离层延迟误差.之后对IGS站观测文件进行加权最小二乘法估计,得到GPS卫星和地面GNSS接收机的L1C频点和L2P频点间码偏差.该方法能同时获取卫星DCBs与地面GNSS接收机的DCBr,有效解决地面GNSS接收机DCBr获取的问题.通过对估计的卫星DCBs与CODE公布的值进行对比和统计分析,结果表明,两者卫星
针对火星局部地表形貌原始自然、色彩单一和纹理相似度高难以实现双目精确定位的问题,提出一种融合深度信息的火星局部地表图像立体匹配方法.利用空间金字塔特征提取模块聚合不同尺度和位置的上下文信息,然后通过分层立体匹配架构构建多尺度的匹配代价卷,用条件代价卷归一化代替批量归一化层,在立体匹配网络的代价正则化阶段以深度信息为条件调制匹配代价卷特征,从而降低计算量,提升推理速度,并生成高精度的视差图.最终利用感兴趣目标的视差值并结合相机的基线参数,得到目标点在指定坐标系下的三维坐标从而实现定位任务.在火星模拟场数据集
针对北斗某星辐射剂量探测数据缺失问题,提出了一种基于线性样条和CNN-LSTM神经网络模型的处理方法.在对数据特性分析的基础上,将原始数据分解为线性趋势项和季节波动项.对于线性趋势项,采用基于线性样条的缺失值处理方法;对于季节波动项,根据其时空变化特性,设计CNN和LSTM组合神经网络结构,完成季节波动项的缺失值处理.实验表明,相比于线性插值法和傅里叶变换插值方法,本文所提方法的插补值与真实值偏差更小,相关性更高.平均相对误差达到0.008,相关系数达到0.855.同时横向对比了本文所提组合神经网络模型和
精确的位姿估计以及对周围环境中的障碍物的实时感知,是探测器在火星表面进行自主漫游的基础.然而,火星探测器受到自身质量、体积和能源供应等因素的影响,计算资源和设备功率受到严格限制,这给感知系统的设计与实现提出了挑战.本文针对火星探测器计算资源严重受限的问题,设计了一种基于视觉-惯性多传感器滤波融合的智能感知系统,其主要包括两个模块:1)基于多状态约束卡尔曼滤波MSCKF(multi state constrained Kalman filter)算法的视觉-惯性里程估计模块,实现了相对误差小于1.5%的较高
目标检测技术广泛应用于交通、医疗、安保和航天等领域.目前,目标检测技术面临目标微弱、背景复杂、目标被遮挡等挑战[1].针对星表非结构化模拟地形采集的图像中岩石和石块小目标检测识别率低、误识别率高的问题,研究了当下效果最好、模型轻量化的YOLOv5目标检测算法,在其基础上进行改进优化器与优化检测框重复检测效果的一种满足实时性要求的岩石目标检测算法.具体通过引入空标签负样本、结合随机梯度下降法SGD(stochastic gradient descent)优化模型和非极大值抑制参数调节方法,提升YOLOv5网
地外探测对多传感器数据同步采集有极高需求,针对地外环境无法接收到全球定位系统(GPS)信号的问题,提出一种面向无GPS授时的多传感器硬件时间同步方法.以嵌入式单片机系统(MCU)为核心设计高精度时间同步硬件框架,综合运用模拟GPS授时、秒脉冲(PPS)校时和脉冲触发结合的方法,分别对多路相机、惯性测量单元(IMU)和激光雷达进行数据采集同步,在上位机实现时间戳和数据的精确匹配.并搭建硬件平台,设计验证方案,实验测试同步误差.实验结果表明,该时间同步方法可实现传感器数据同步采集,同步精度约2 ms.相比现有
对抗生成网络的发展为图像生成等传统领域带来了很大进步,通过使用较少样本训练对抗生成网络,可以学习到特定图像类别的特征,进而能够增广样本应用于场景测试、其他网络训练等多种任务.本工作探索了在较少量的火星训练样本的基础上,针对直接使用GAN生成样本存在特征因平均化而不明显且类别较少的模式崩塌问题,基于渐进增长对抗生成网络,提出了一种聚类-训练-生成协同的火星样本生成方法.实验结果表明,与直接利用渐进增长对抗生成网络的基线方法相比,本工作生成效果得到了提升.
基于Mogi-Coulomb强度准则推导了两向非等压下的圆形巷道塑性区隐式边界方程,分析了岩石内聚力、内摩擦角、中间主应力对塑性区的影响.研究表明:内聚力与内摩擦角均不改变塑性区的形态仅对塑性区的大小有影响,随着内聚力的增大,塑性区的半径逐渐减小,且随着内聚力的增大,塑性区半径减小的速度增加;内摩擦角与塑性区半径变化趋势相反,且塑性区半径减小的速度随内摩擦角的增大而减小;当中间主应力系数小于一定值时,随着中间主应力系数增大,塑性区的半径减小,当中间主应力系数超过一定值时,随着中间主应力系数增大塑性区的半径