论文部分内容阅读
多巴胺作为一种重要的神经递质,存在一些独特的多巴胺通路,一些通路在奖赏-动机行为方面起作用,另一些通路则参与到个体的运动控制方面。大量的研究表明自发眨眼频率(EBR)和纹状体多巴胺功能有着密切的关系。EBR和静态下的多巴胺活动有正相关的关系,很多研究证明了由于药物或疾病引起的多巴胺增多或减少的活动分别对应了个体EBR的高水平和低水平。作为一种非入侵性和容易获得的方式,EBR可以作为评估人体多巴胺功能的可靠指标,因此EBR已经成为研究多巴胺的普遍测量工具。鉴于多巴胺对个体的认知活动有着十分重要的调节作用,学者提出了基底神经节的神经网络模型用以解释多巴胺的调节机制,这个机制解释了多巴胺对于认知功能的调节作用。基底神经节中包含着多巴胺的两种受体D1和D2类受体,这两种受体的相互作用系统形成了由多巴胺调节的决策阈限。D1受体调控的直接通路传递:“Go”信号,促进表征更新和反应选择;D2受体调控的间接通路传递“No Go”信号,抑制竞争性刺激的反应和表征。分泌的多巴胺对驱动“Go”信号的D1直接通路有促进的作用,对驱动“No Go”信号的D2间接通路有抑制作用。因此,高水平的多巴胺(由于积极预期错误引起)会降低决策的阈限,而低水平的多巴胺(由于消极预期错误引起)会解除反应抑制并提高表征的灵活性。有研究证明了多巴胺能疾病在强化学习方面的功能是遵循基底神经节模型的调节机制的,但是也有研究结果和这个机制不相符,这说明多巴胺调节强化学习的机制不仅仅是通过基底神经节网络神经模型进行的,多巴胺的自我调控机制也参与到其中。另外,在前人的研究中所用的奖赏和惩罚的力度不统一,使用的被试全体也不一致,目前没有研究全面地探究多巴胺对强化学习的调节作用,因此对其进行进一步的研究有一定的理论和实践意义。本研究运用了三个行为实验,通过操纵强化学习中的奖赏和惩罚的强度,呈现了奖赏少惩罚少(奖赏:惩罚=1:1)、奖赏多惩罚多(奖赏:惩罚=5:5)、奖赏多惩罚少(奖赏:惩罚=5:1/奖赏:惩罚=100:1)、奖赏少惩罚多(奖赏:惩罚=1:5/奖赏:惩罚=1:100)六个奖惩条件,使用概率性选择任务对多巴胺调节强化学习的机制进行的探究。研究一采用了概率性选择任务,探讨了在基线条件(奖赏:惩罚=1:1)和奖惩不一致(奖赏:惩罚=5:1,奖赏:惩罚=1:5)的情况下多巴胺对个体的强化学习的调节作用。实验有效被试100名(其中女生83名,男生17名),一共有三个奖惩条件,在实验开始前记录被试的自发眨眼频率(EBR),实验过程记录被试的反应时和错误率。回归分析结果表明:在基线条件下个体的EBR和正性学习之间呈显著的倒U型的关系,而在奖惩不一致的两个条件下,个体的EBR和正性学习与负性学习之间都没有显著的关系。基于研究一的研究结果,研究二再次进行了奖惩一致的条件设置,并且加大了奖惩的力度,对研究一结果进行重复验证。实验有效被试32名(其中28名女生,4名男生),结果证明在奖惩强度一致(奖赏:惩罚=5:5)的情况下,重复了实验一的研究结果,EBR和正性学习之间呈现显著的倒U型关系。基于研究一奖惩不一致的条件下的研究结果,研究三再次进行了奖惩不一致的条件设置,并且加大了奖惩之间的差异(奖赏:惩罚=100:1/奖赏:惩罚=1:100)。实验有效被试52名(其中44名女生,8名男生),结果证明在奖赏多惩罚少(奖赏:惩罚=100:1)的条件和奖赏少惩罚多(奖赏:惩罚=1:100)的条件下,个体的EBR和负性学习之间呈现U型相关的趋势。综上所述,奖惩一致和奖惩不一致的设置会影响多巴胺对强化学习的调节作用。在强化学习的奖惩强度一致的条件下,EBR和正性学习之间的倒U型相关的关系。同时,研究结果提示在强化学习奖惩强度不一致的条件下,EBR和负性学习之间可能存在U型相关。在奖惩一致的条件下,EBR与正性学习的关系反映的是D1受体对正性学习以及任务稳定性的调节作用;在奖惩不一致的条件下,EBR与负性学习的关系反映的是D2受体对负性学习以及任务灵活性性的调节作用。多巴胺对强化学习的调节作用通过基底神经节网络神经模型和多巴胺自我调控机制共同实现。本研究以一个比较新颖和全面的视角,为多巴胺对正性学习的调控机制提供了重要的实验证据,丰富了多巴胺调节强化学习相关领域的研究。