强化学习过程中认知控制的神经机制

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户：kantstop

【摘要】

：

强化学习是一种使学习者经过强化物的强化而使得学习率不断提高,最终习得学习规律的一种学习模式。认知控制是强化学习过程中习得学习规律必不可少的重要因素,只有通过认知控

【作者】

：

霍珍珍

【出处】

：

曲阜师范大学

【发表日期】

：

2004年期

【关键词】

：

强化学习认知控制概率选择任务二阶决策任务奖赏

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是一种使学习者经过强化物的强化而使得学习率不断提高,最终习得学习规律的一种学习模式。认知控制是强化学习过程中习得学习规律必不可少的重要因素,只有通过认知控制进行合理地计划,不断指导行为,进行行为调整和行为监控才能更好地达到预期目标。其中有效的行为监控包括内部监控/错误发现和外部监控/外部反馈。但是,在强化学习中内部监控和动态学习表现很少被研究者们关注。在本研究领域仍然存在较大的争论:强化学习依赖于哪种性质的外部强化物以及个体的行为调整策略是怎样的?概率选择任务和二阶决策任务是强化学习研究中常用的实验范式。概率选择任务包括练习和测试两个阶段的任务,通过练习阶段习得的规律进行测试,可以考察个体在学习过程中的内部监控与外部反馈之间的关系,并且可以进一步考察个体学习在哪个阶段是依赖于外部强化物的以及依赖于哪种性质的外部强化物。二阶决策任务由两个阶段构成,主要考察前一个试次的反馈结果和转换类型对下个试次第一阶段被试选择的影响,可以较为直接的考察个体的行为策略模式以及认知控制能力在学习过程中的表现。二阶决策任务的研究结果多用于验证强化学习的双模型理论,即目标导向(model-based)模型和习惯化(model-free)模型。目标导向模型是根据环境结构和有机体当前的目标对接下来的行为进行推理预测,以使行为更加符合目标需要,是一种灵活,需要认知控制的系统。习惯化模型是指学习行为依据之前受到奖励过的经验,是一种更加经济(认知资源消耗较少),不灵活(不能对环境变换做出及时的反应),自动化的系统。二阶决策任务相对于概率选择任务更可以考察在更为复杂的环境下个体在进行学习或者行为决策时如何进行认知资源的使用和分配。因此,本研究基于概率选择任务和二阶决策任务对强化学习中认知控制的神经机制进行探索。实验一采用改编后的概率选择范式来检验内部监控和外部反馈的表现模式以及内部监控和外部反馈在动态的强化学习过程中的关系。错误相关负波,反馈相关负波和P300这三种事件相关电位成分可以被用于内部监控,外部反馈和行为调整的指标。研究结果发现:在早期学习阶段趋向学习者和回避学习者有更大的反馈相关负波效应和较小的错误相关负波效应并且负反馈显著大于正反馈,但是在晚期的学习阶段有较大的错误相关负波效应和较小的反馈相关负波效应。另外,反馈相关负波和P300在最后阶段比前三个阶段的波幅显著减小,并且错误相关负波的波幅显著增大。上述的结果表明错误相关负波和反馈相关负波存在权衡关系。行为调整主要基于早期学习阶段的负反馈。另外,被试在学习的最后阶段成功的掌握了学习规律。实验二采用了二阶决策任务考察个体在各个阶段中的行为模式,对行为数据采用logistic回归分析方法以确定各个阶段的行为模型。对反馈阶段选取两个时间窗口进行分析,一个是较早期的时间窗口260-380ms,即事件相关成分FRN,另一晚期成分为N460-620。研究结果发现,在四个学习阶段中仅在第二个阶段表现为目标导向模型,第三阶段既不是目标导向模型也不是习惯化模型。第一阶段和第三阶段都为习惯化模型。事件相关电位的结果发现,FRN成分仅有反馈效价主效应显著并且负反馈波幅明显比正反馈波幅更负,阶段的主效应显著,随着阶段的向后推移FRN波幅逐渐增大。而较为晚期的N460-620成分不但有显著的反馈效价和阶段的主效应外还出现了反馈效价与阶段的二阶交互作用,正反馈波幅在block2,block4阶段的幅值明显减小;以及转换类型,反馈效价与阶段的显著的三阶交互作用,较少转换类型中的负反馈在block3阶段幅值显著减少。这说明,对于较为复杂的实验任务中个体信息加工的时间会加长。基于以上的实验结果,本研究得出以下结论:(1)内部监控与外部反馈之间存在权衡的关系。(2)外部反馈在学习的早期阶段起作用,行为调整主要基于早期反馈的负反馈。(3)在学习过程中,习惯化模型和目标导向模型在学习的各个阶段作用不同,学习的最初阶段是以习惯化模型起作用,认知控制能力较弱,学习的后期目标导向模型会参与其中,使个体的行为更加符合环境需要,认知控制能力增强。(4)对于较为复杂的实验任务中个体信息加工的时间会加长。

其他文献

基于ECAP变形的Al-Zn-Mg-Cu合金多元合金相及抗应力腐蚀研究

Al-Zn-Mg-Cu合金作为新一代的优质结构铝合金材料,具有高强度、高韧性、良好的扩散性、密度小以及具有巨大的减重潜能,因此在兵工器械、航空航天、核工业、舰艇及桥梁等领域都有着极其广泛的应用。被认为是最有可能代替钢、铁的有色金属材料。本文采用一种新型的Al-Zn-Mg-Cu合金(7A60),在不同的工艺参数下(变形温度、变形道次)对Al-Zn-Mg-Cu合金进行等径角挤压(ECAP)实验。采用多

学位

Al-Zn-Mg-Cu合金等径角挤压微观组织力学性能抗应力腐蚀

低膨胀ZrW2O8/Al复合材料制备与性能研究

航空航天、精密仪器等领域由于环境温区变化大或尺寸变化敏感,使得低膨胀金属材料具有很大的应用价值。传统的低膨胀材料如Invar合金等密度大(8.1g/cm3),低膨胀区间窄(-2020℃),严重限制其使用条件。本文设计制备具有构型的负膨胀连通结构,配合轻质铝合金基体,获得宽温区低膨胀铝基复合材料。本文通过固相反应法制备了ZrW_2O_8,研究了温度、配比、烧结次数等条件对ZrW_2O_8合成制备的影

学位

ZrW2O8/Al铝基复合材料低膨胀构型退火

中国空气污染的空间集聚特征及区域性差异研究

在我国经济发展突飞猛进的同时,空气污染问题日益严重,使我国在经济、环境、人民健康等方面均遭受了不同程度的损失。空气污染的成因和影响因素是多方面的,为增强我国联防联治对抗空气污染的效果,本文重点从我国空气污染集聚特征着手,并分析引起区域化差异的原因。本文的研究工作和创新贡献主要体现在以下方面:(1)我国空气污染具有一定的集聚效应,因此需要对我国空气污染集聚的区域进行识别与划分。本文利用多元线性回归模

学位

空气污染复杂网络空间计量模型地域差异

基于激光雷达导向的重型自动导引运载车系统设计与研究

随着人工成本的上升与技术水平的发展,物料的自动化搬运逐渐成为工业生产的发展主流。自动导引运载车(Automatic Guided Vehicle,简称AGV)在物料运输、设备对接等工作环节中

学位

扩展卡尔曼滤波激光雷达路标定位AGV

平均血小板体积与淋巴细胞比值与早期2型糖尿病肾脏病的相关性研究

[目的]平均血小板体积与淋巴细胞比值(MPVLR)是一个新的炎症指标,通过比较早期2型糖尿病肾脏病患者、单纯2型糖尿病患者以及健康人的MPVLR等相关临床指标的变化,探讨MPVLR与

学位

糖尿病肾脏病平均血小板体积与淋巴细胞比值危险因素

抗VEGF治疗对糖尿病性黄斑水肿黄斑区视网膜血管密度和中心凹无血管区面积的影响

目的:利用光学相干断层扫描技术(optical coherence tomography,OCT)和光学相干断层扫描血管成像技术(optical coherence tomography angiography,OCTA)观察糖尿病性黄斑水肿

学位

糖尿病性黄斑水肿抗血管内皮生长因子治疗光学相干断层扫描血管成像中心凹无血管区面积血管密度

西汉时期铁戟包裹织物的分析研究——以青州博物馆藏铁戟表面织物为例

山东省青州博物馆收藏有该市香山汉墓出土的大量彩绘陶俑、陶器、铁器和铜器。其中,数百个卜字形铁戟(附铜柲帽)严重锈结、矿化,部分铁戟上残留有朽木漆鞘痕,或有缠绕物麻绳

会议

西汉时期铁戟织物分析

球毛壳菌素V_b和西贝母碱苷的体外抗炎药效评价

炎症是机体对致炎因子刺激产生的防御作用,但长期过度的炎症反应会影响机体正常代谢过程,如类风湿性关节炎、炎性肠病、动脉粥样硬化、脑卒中、糖尿病和肿瘤等。因此,抑制机

学位

球毛壳菌素V_b西贝母碱苷抗炎LPS巨噬细胞

冷热循环对SiCp/Al复合材料组织和性能的影响

在太空中温度从高温到低温的交替变化是对材料影响很大的,为探究颗粒增强金属基复合材料在冷热循环处理下性能变化的原因。本课题通过高能球磨+粉末冶金+热挤压的方式制备了不同尺寸的SiCp/Al复合材料,对复合材料进行冷热循环处理。通过SEM和TEM分析了处理前后的微观组织形貌,测试并比较了处理前后的性能,利用ABAQUS软件模拟研究了冷热循环后复合材料中应力分布的规律,分析了冷热循环后热应力对复合材料性

学位

Al基复合材料不同颗粒尺寸冷热循环有限元模拟热应力

初级汉语学习者口语语篇能力培养研究

近年来,对外汉语学界关于语篇的探讨研究如火如荼,其中包括结合具体教学实践对语篇本体再阐述、结合语料对语篇偏误归纳总结等,尤其针对中高级汉语学习者的语篇研究成果不胜

学位

口语语篇能力初级汉语学习者教学实验

强化学习过程中认知控制的神经机制

其他学术论文