论文部分内容阅读
针对柔性自平衡机器人的稳定自平衡认知问题,提出一种基于多层启发式动态规划认知(Multi-level heuristic dynamic programming,Ml HDP)模型的平衡认知方法,将这种认知方法用于柔性自平衡机器人自平衡学习中。通过引入取向奖赏模块,把原有离散形式的奖赏机制转化为连续形式,以转化后的连续奖赏信号作为评价的主要依据。该方案使得机器人在自主认知的过程中能够记录更多信息量,提高其认知能力。通过机器人的自平衡认知实验可以看出,在机器人具有柔性关节的条件下仍然具备良好的认知能力