奖赏函数相关论文
针对传统无线传感器网络节点能量供应有限和网络寿命短的瓶颈问题,依据无线能量传输技术领域的最新成果,提出了一种基于改进Q-Lear......
针对多跳空中传感器网络(Aerial Sensor Network,ASN)中的负载不均衡问题,提出了强化学习(Reinforcement Learning,RL)理论辅助的......
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功......
随着人工智能技术的发展,具备认知能力的通信干扰技术成为了当前的研究重点。认知通信干扰技术要求干扰机能够根据环境的变化实现......
针对无线频谱资源日益稀缺,然而某些频段资源的利用率又很低,本文在认知用户进行独立学习的基础上提出一种分布式多Agent动态协作......
针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作......