奖赏函数相关论文
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功......
随着人工智能技术的发展,具备认知能力的通信干扰技术成为了当前的研究重点。认知通信干扰技术要求干扰机能够根据环境的变化实现......
针对无线频谱资源日益稀缺,然而某些频段资源的利用率又很低,本文在认知用户进行独立学习的基础上提出一种分布式多Agent动态协作......
针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作......