【摘 要】
:
路径规划问题是智能机器人领域的研究热点之一,传统的路径规划算法存在环境感知能力差、求解速度慢和算法实时性差等缺点。随着深度学习技术的发展,基于强化学习的路径规划算法在许多领域得到了广泛的应用。该类算法结构简单,求解速度快,但也存在训练速度慢,易收敛于局部最优和训练不稳定等问题。本文针对强化学习路径规划算法的这些问题,结合基于势能的奖励函数改造方法和动态环境特征,进行了如下几个方面的研究:首先,提出
论文部分内容阅读
路径规划问题是智能机器人领域的研究热点之一,传统的路径规划算法存在环境感知能力差、求解速度慢和算法实时性差等缺点。随着深度学习技术的发展,基于强化学习的路径规划算法在许多领域得到了广泛的应用。该类算法结构简单,求解速度快,但也存在训练速度慢,易收敛于局部最优和训练不稳定等问题。本文针对强化学习路径规划算法的这些问题,结合基于势能的奖励函数改造方法和动态环境特征,进行了如下几个方面的研究:首先,提出基于势能奖励函数的竞争双Q网络路径规划算法。通过改进奖励函数,解决朴素竞争双Q网络路径规划算法所遇到的奖励稀疏问题。改进奖励函数根据与终点的距离,为地图上每个栅格块赋予引力势能值,通过该势能值为智能体在训练过程中提供即时奖励,降低智能体的学习难度,提高智能体寻路性能。通过仿真实验,讨论算法的奖励收敛曲线、碰撞率和平均路径长度等指标,验证算法的有效性。其次,设计基于分拣系统环境的动态模拟环境,根据动态环境特点,提出基于势能奖励函数的动态竞争双Q网络路径规划算法。设计动态奖励地图,结合动态障碍物运动方向不可预测且运动速度较低的特点,设置动态障碍物一步可达的位置为危险区,并将动态奖励地图作为输入的一部分,为智能体在路径规划时提供更多的信息,从而实现机器人在动态环境下逐时间步地动态规划路径。通过仿真实验,在三种不同的环境下,讨论算法的奖励收敛曲线、与动态障碍物碰撞次数、与静态障碍物碰撞率和平均路径长度等指标,验证算法在动态环境下的有效性。最后,总结了本文的不足之处,并提出了未来的改进方向。
其他文献
慢性炎症性疼痛在临床上长期困扰着患者,但其潜在机制尚不清楚,具体的治疗策略仍需进一步探索。龙血素B是从剑叶龙血树中提取的一种黄酮类化合物,有研究认为其具有止血、抗炎、镇痛等作用。我们通过分析完全弗氏佐剂(Complete Freund’s Adjuvant,CFA)诱导所致小鼠炎症性疼痛模型的脊髓转录组学来研究龙血素B的镇痛作用。行为学研究发现,龙血素B使CFA疼痛模型小鼠的机械痛阈值明显升高。差
研究背景与目的胰岛素抵抗(Insulin Resistance,IR)是2型糖尿病发生的基本环节,运动改善IR的机制主要涉及骨骼肌AMP激活蛋白激酶【Adenosine 5’monophosphate(AMP)-activated protein kinase,AMPK】活性的增加,但其上游分子调节机制远未阐明。我们在前期研究中已发现,肝脏转甲状腺素蛋白(Transthyretin,TTR)在急性
背景与目的溃疡性结肠炎(Ulcerative colitis,UC)是一由环境因素、遗传因素及免疫因素共同作用而引起的特发性肠道炎症性疾病,常常反复发作,最终导致肠道屏障损伤。越来越多的证据表明蛋白泛素化修饰调控肠道炎症发生发展。DCAF(DDB1-and CUL4-associated factor)家族蛋白可与CRL4-DDB1构成E3泛素连接酶,调控细胞生长、分化、凋亡等一系列生命活动。DC
机场道面外来物FOD具有背景复杂、目标弱小的特点,严重影响飞行器安全,故其高精度实时检测具有重要意义。针对该问题,本文提出一种基于多尺度超分辨率特征金字塔并带有纹理信息提取模块的FOD-RDN(FOD real-time detection network)目标检测网络。该网络采用Darknet-53作为主干网提取特征,通过多尺度超分辨率特征金字塔对形状各异的小目标进行检测,设计纹理信息提取模块降
自“智慧交通”的概念被提出后,智慧出行开始获得大众的喜爱。传统的出行路线推荐算法通常由改进的加权算法生成路程最短或最快的路线,而没有考虑到用户的出行偏好和实际的交通道路状况,用户在现实世界中通常不遵循该方式推荐的路线出行。所以如何为用户提供最优的出行路线成为研究者最关注的热门话题之一。现有的基于轨迹的路线推荐算法,在考虑用户出行路线规划的问题时把大部分注意力放在轨迹上,过于依赖用户的历史轨迹数据;
目的:未分化甲状腺癌(anaplastic thyroid carcinoma,ATC)作为一种高死亡率甲状腺癌特殊亚型,属于侵袭性最强的肿瘤之一。研究表明,复杂的基因相互作用会影响ATC肿瘤的发生和预后。因此,本研究旨在寻找与ATC发病相关的潜在关键基因。方法:下载GEO数据库中的GSE33630和GSE65144表达谱芯片并筛选差异表达基因(DEGs),进一步构建蛋白质·蛋白质相互作用网络(P
X光安检机广泛应用于机场、火车站、地铁站等交通运输领域及各种大型公共活动场所,是维护公共安全和运输安全的重要设施,旅客行李通过X光机扫描并实时产生安检图像,安检员通过检查安检图像判断行李中是否存在违禁品,从而保障公共安全。然而人工检查机制存在着安全隐患,随着客流量的日益增长,长时间高强度的工作会使安检人员产生疲劳,增加了漏检和错检的风险。因此,对X光安检图像中的违禁品进行智能识别辅助安检员工作具有
研究背景及目的胃肠道血管畸形是一种表现为粘膜及黏膜下层血管不规则增生、扩张、充血、迂曲的血管病变,它也是不明原因消化道出血(Obscure gastrointestinal bleeding,OGIB)的重要原因。胃肠道血管畸形起病隐匿,通常无明显症状,有研究表明无症状性结肠血管畸形发生率低,但目前关于胃及小肠无症状性血管畸形的具体患病情况及疾病演变仍不明确。另外,磁控胶囊胃镜(Magnetica
背景与目的:结直肠癌(colorectal cancer,CRC)是目前最常见的恶性肿瘤之一。绝大多数CRC是由结直肠腺瘤发展而来。结肠镜检查及切除腺瘤是降低CRC发生最有效的方式,结肠镜腺瘤切除术后定期随访可有效阻断CRC的发生。目前对于结直肠腺瘤切除术后的随访间期没有一个金标准,2020年发布的美国及欧洲指南对结肠镜腺瘤切除术后的随访间期进行不同程度的延长,但两个指南的随访间期差异较大,对临床
系统日志详细记录系统运行期间的信息,被广泛地用于异常检测。然而,在系统日志数据集中,因不同类别日志之间出现过多相似属性会导致决策边界太复杂,由此引发的日志类重叠问题会使传统分类器很难实现正确分类,从而给基于日志的异常检测带来极大挑战。另外,有些系统需要7×24小时运行来支持广泛的智能应用程序和在线服务。概念漂移或模型老化往往发生在不稳定环境中,各种各样的运行程序生成更复杂和可变的日志。基于日志的异