论文部分内容阅读
任何生物的行为和技能的形成过程都是一个认知的过程,是在与环境或客体的交互过程中通过学习和训练逐渐形成、发展和完善起来的。模拟这种自我组织、自我完善的渐进行为机制,并将其应用于机器人系统使机器人通过学习和训练获得类似生物的行为和技能,是认知科学、机器人学以及神经生理学等学科的重要研究课题。 本文结合认知科学、操作条件反射(Operant Conditioning)原理和神经计算科学等相关理论,从仿生学角度出发,以生物的内发动机(Intrinsic Motivation)特性为立足点,以移动机器人为研究对象,基于蠕虫的趋光行为,模拟了生物的认知行为(Cognitive Behavior)。论文取得的主要研究成果如下: 一、基于Boltzmann机的认知模型 针对生物内发动机的取向性(Tropism)问题,模拟生物“感知—行动”(Perception-Action)认知机制,对具有趋光特性的移动机器人进行设计,构建了一种基于Boltzmann机的认知模型(Cognitive Model based on BoltzmannMachine,CMBM)。该模型主要包括检测装置、运动模式控制系统和执行装置三个部分。其中,检测装置由传感器等元件构成,用来收集环境中的状态信息;运动模式控制系统为N阶Boltzmann机,应用知识集进行趋光学习训练,实现状态到行为的最佳映射;执行装置由电机等构成,输出最终动作。仿真实验证明基于Boltzmann机所设计的认知模型能够使移动机器人经过充分的学习和训练,逐步形成、发展和完善趋光技能。 二、基于操作条件反射原理的认知模型 基于Boltzmann机所提出的认知模型是依据事先定义的知识集对其进行学习训练的,缺少生物自主学习性。为了充分模拟生物自主渐进的学习特征,提出了基于操作条件反射原理的认知模型(Cognitive Model based on OperantConditioning,CMOC),该模型由评价模块、取向模块和行为选择模块三部分构成。评价模块根据输入状态、奖惩信号和动作量对当前动作进行评价;取向模块采用具有Boltzmann分布和贪心策略的选择机制,根据评价值生成取向信息;行为选择模块根据输入状态、评价值和取向信息输出动作量。通过评价、取向和行为选择环节的强化实现机器人对最优策略的搜索,使得机器人在未知环境下,通过自主学习和训练,逐渐掌握行为技能。采用马尔科夫定理证明了学习过程的收敛性。将其应用于机器人趋光行为研究中,仿真实验表明机器人能够在未知环境下自主和渐进地模拟生物趋光认知行为,具有一定的环境适应能力。对比试验表明了该模型具有较快的收敛速度,加快了学习进程,节省了学习时间。 三、基于情感智能的认知模型 情感智能是生物内发动机的重要组成部分。在前述基于操作条件反射原理的认知模型基础之上,引入情感智能因素,提出了一种基于情感智能的认知模型(Cognitive Model based on Emotion Intelligence,CMEI)。本节针对生物趋光行为特性,采用模糊推理(fuzzy reasoning)方法构建了人工情感模型,模糊逻辑更能体现情感状态推理的复杂性和不确定性的本质特征。人工情感模型输入为机器人所在位置光强度,采用很高、高、中、低和很低五个等级以及机器人与障碍物距离,采用很远、远、中、近和很近五个等级,输出是机器人在趋光过程中产生的情感因子,情感因子作为所设计的认知模型的内部奖赏信号。根据OCC情感模型,设定趋光过程中的情感状态,考虑机器人趋光过程中行为结果对机器人情感的影响,选取骄傲、高兴、满意、失望、忧伤和羞愧六种情感状态。依据OCC模型中情感产生规则确定机器人的情感状态。仿真实验表明了该模型具有自主学习和适应能力,对比试验表明了该模型具有较快的收敛速度,加快了学习进程,节省了学习时间,进一步体现生物的内发动机在行为决策中的重要性。针对复杂环境的趋光问题,构建了基于行为的认知模型,采用分层结构实现趋光行为。