奖赏函数相关硕士博士期刊学术论文

常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功......

期刊

随着人工智能技术的发展,具备认知能力的通信干扰技术成为了当前的研究重点。认知通信干扰技术要求干扰机能够根据环境的变化实现......

学位

针对无线频谱资源日益稀缺,然而某些频段资源的利用率又很低,本文在认知用户进行独立学习的基础上提出一种分布式多Agent动态协作......

期刊

强化学习 Q值奖赏函数信噪比

针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题，提出一种新的强化学习算法．新算法使用行动分值作为智能行为者选择动作......

期刊