论文部分内容阅读
强化学习是一种使学习者经过强化物的强化而使得学习率不断提高,最终习得学习规律的一种学习模式。认知控制是强化学习过程中习得学习规律必不可少的重要因素,只有通过认知控制进行合理地计划,不断指导行为,进行行为调整和行为监控才能更好地达到预期目标。其中有效的行为监控包括内部监控/错误发现和外部监控/外部反馈。但是,在强化学习中内部监控和动态学习表现很少被研究者们关注。在本研究领域仍然存在较大的争论:强化学习依赖于哪种性质的外部强化物以及个体的行为调整策略是怎样的?概率选择任务和二阶决策任务是强化学习研究中常用的实验范式。概率选择任务包括练习和测试两个阶段的任务,通过练习阶段习得的规律进行测试,可以考察个体在学习过程中的内部监控与外部反馈之间的关系,并且可以进一步考察个体学习在哪个阶段是依赖于外部强化物的以及依赖于哪种性质的外部强化物。二阶决策任务由两个阶段构成,主要考察前一个试次的反馈结果和转换类型对下个试次第一阶段被试选择的影响,可以较为直接的考察个体的行为策略模式以及认知控制能力在学习过程中的表现。二阶决策任务的研究结果多用于验证强化学习的双模型理论,即目标导向(model-based)模型和习惯化(model-free)模型。目标导向模型是根据环境结构和有机体当前的目标对接下来的行为进行推理预测,以使行为更加符合目标需要,是一种灵活,需要认知控制的系统。习惯化模型是指学习行为依据之前受到奖励过的经验,是一种更加经济(认知资源消耗较少),不灵活(不能对环境变换做出及时的反应),自动化的系统。二阶决策任务相对于概率选择任务更可以考察在更为复杂的环境下个体在进行学习或者行为决策时如何进行认知资源的使用和分配。因此,本研究基于概率选择任务和二阶决策任务对强化学习中认知控制的神经机制进行探索。实验一采用改编后的概率选择范式来检验内部监控和外部反馈的表现模式以及内部监控和外部反馈在动态的强化学习过程中的关系。错误相关负波,反馈相关负波和P300这三种事件相关电位成分可以被用于内部监控,外部反馈和行为调整的指标。研究结果发现:在早期学习阶段趋向学习者和回避学习者有更大的反馈相关负波效应和较小的错误相关负波效应并且负反馈显著大于正反馈,但是在晚期的学习阶段有较大的错误相关负波效应和较小的反馈相关负波效应。另外,反馈相关负波和P300在最后阶段比前三个阶段的波幅显著减小,并且错误相关负波的波幅显著增大。上述的结果表明错误相关负波和反馈相关负波存在权衡关系。行为调整主要基于早期学习阶段的负反馈。另外,被试在学习的最后阶段成功的掌握了学习规律。实验二采用了二阶决策任务考察个体在各个阶段中的行为模式,对行为数据采用logistic回归分析方法以确定各个阶段的行为模型。对反馈阶段选取两个时间窗口进行分析,一个是较早期的时间窗口260-380ms,即事件相关成分FRN,另一晚期成分为N460-620。研究结果发现,在四个学习阶段中仅在第二个阶段表现为目标导向模型,第三阶段既不是目标导向模型也不是习惯化模型。第一阶段和第三阶段都为习惯化模型。事件相关电位的结果发现,FRN成分仅有反馈效价主效应显著并且负反馈波幅明显比正反馈波幅更负,阶段的主效应显著,随着阶段的向后推移FRN波幅逐渐增大。而较为晚期的N460-620成分不但有显著的反馈效价和阶段的主效应外还出现了反馈效价与阶段的二阶交互作用,正反馈波幅在block2,block4阶段的幅值明显减小;以及转换类型,反馈效价与阶段的显著的三阶交互作用,较少转换类型中的负反馈在block3阶段幅值显著减少。这说明,对于较为复杂的实验任务中个体信息加工的时间会加长。基于以上的实验结果,本研究得出以下结论:(1)内部监控与外部反馈之间存在权衡的关系。(2)外部反馈在学习的早期阶段起作用,行为调整主要基于早期反馈的负反馈。(3)在学习过程中,习惯化模型和目标导向模型在学习的各个阶段作用不同,学习的最初阶段是以习惯化模型起作用,认知控制能力较弱,学习的后期目标导向模型会参与其中,使个体的行为更加符合环境需要,认知控制能力增强。(4)对于较为复杂的实验任务中个体信息加工的时间会加长。