论文信息 ¶

Li, J. A., Dong, D., Wei, Z., Liu, Y., Pan, Y., Nori, F., & Zhang, X. (2020). Quantum reinforcement learning during human decision-making. Nature human behaviour, 4(3), 294–307. https://doi.org/10.1038/s41562-019-0804-2

[[论文原文](content/read/zhuyingce/Source_Files/Quantum reinforcement learning during human decision-making.pdf)] ¶

关键词 ¶

经典强化学习、量子强化学习

摘要 ¶

经典强化学习已被广泛应用于神经科学和心理学中，量子强化学习在计算机模拟中表现出更优越的性能，却从未在关于人类决策的实证研究中得到检验。本研究考察了 QRL 是否能够合理解释基于价值的决策过程。我们使用来自健康个体与吸烟者完成爱荷华赌博任务的行为数据和功能性磁共振成像（fMRI）数据，对 2 个 QRL 模型和 12 个 CRL 模型进行了比较。结果显示，在所有受试者群体中，QRL 模型相较于表现最佳的 CRL 模型也表现良好，并进一步揭示了与量子态相关的内部变量在健康个体和吸烟者的内侧额叶回中均有表现。这一发现表明，基于价值的决策过程在行为层面和神经层面上都可以通过 QRL 进行解释。

1.介绍 ¶

强化学习起源于早期的行为心理学，如今已广泛应用于机器学习和决策心理学领域。它通常以形式化的方式描述一个代理（可以是计算机或动物）应如何在未知的概率环境中采取行动，以最大化其总体奖励。量子计算技术已成功应用于机器学习领域。基于量子叠加原理和量子并行性，研究者提出了量子强化学习（QRL），将量子理论与强化学习相结合。与经典强化学习（CRL）相比，QRL 在大规模搜索空间中表现更佳，学习速度更快，且在探索与利用之间实现了更好的平衡。

心理学领域也开始引入量子启发的框架。已有研究证据支持将量子模型用于解释人类行为：在过去十年中，许多认知科学家发现，一些难以用经典概率理论解释的行为悖论和效应（例如合取谬误和顺序效应），却可以通过量子概率理论很好地加以解释。

神经科学和心理学关于基于价值的决策的研究已逐渐趋于一致，形成了以经典强化学习（CRL）为基础的标准模型，并为行为提供了非常有成效的解释和出人意料的准确预测，探究量子强化学习（QRL）框架是否同样可以在建模基于价值的决策中发挥作用并提供有价值的见解。

本文的目标是探索基于价值的决策过程中所涉及机制的类量子特性。将量子强化学习（QRL）应用于基于价值的决策，并研究这一量子框架如何在行为层面和神经层面得到实现。

IGT 是一项经典的基于价值的决策任务，在精神病学和神经科学领域广为人知，旨在评估个体的决策缺陷程度。其复杂性和较高的生态效度使其能够捕捉到现实生活中决策行为所依赖的重要成分，如动机、学习和选择过程。基于经典强化学习（CRL）的IGT模型被提出，用于将单一任务表现细分为这些子过程。其中一些模型在揭示基于价值的决策的子过程方面表现出色，也有效解释了健康人群与存在决策缺陷的群体（如药物成瘾者或脑损伤患者）之间的行为差异。

针对爱荷华赌博任务（IGT）开发了两种新的量子强化学习模型：量子叠加状态学习模型（QSL）**和**量子叠加状态加坚持性模型（QSPP），并将它们与多个已被广泛验证的经典强化学习（CRL）模型进行了比较。进行了功能性磁共振成像（fMRI）分析，以比较QSPP模型与拟合效果最好的CRL模型在学习过程中所涉及的神经基础。

IGT任务：

2.方法 ¶

2.1参与者 ¶

58名健康受试者（对照组：9名女性；平均年龄±标准差：23.42±2.36岁；平均受教育年限±标准差：16.58±1.79年）和43名吸烟者（吸烟组：全为男性；平均年龄±标准差：24.44±2.34岁；平均受教育年限±标准差：16.13±1.92年；每天吸烟超过10支，持续至少1年）参加了爱荷华赌博任务（IGT），并纳入后续的行为建模分析。

2.2程序 ¶

被试从四组牌堆中反复选择，以获得或失去一定的分数，并被告知最终的报酬将根据他们的最终得分决定。被试在功能性磁共振成像（fMRI）扫描仪外完成任务的训练环节，持续5分钟，期间无实际报酬。被试的目标是通过探索找出IGT中的不变规则，训练环节仅用于熟悉操作界面。被试清楚区分训练环节和正式实验环节。休息10分钟后，被试在扫描仪内进行了三轮IGT任务。被试初始拥有3,000任务点作为“启动资本”，并根据扫描期间获得的任务点数领取相应报酬。

2.3任务与刺激 ¶

在IGT任务中，有四组牌堆（A、B、C、D堆，依次从左到右呈现）。每张牌正面显示获得的积分和可能的损失积分。

A堆每张牌获得100分（收益），在每10张牌中分别有5张牌会损失150、200、250、300和350分。

B堆每张牌同样获得100分，但每10张牌中有1张会损失1250分。

平均来说，选择A或B堆10次会导致净损失250分。

C堆每张牌获得50分，每10张牌中有5张分别损失25、40、50、60和75分。

D堆每张牌也获得50分，但每10张牌中有1张损失250分。

平均来说，选择C或D堆10次会获得净收益250分。

任务试次数从原来的100次延长至180次。180次试验被分为三轮扫描，每轮扫描包含三个任务区块，区块间以24秒的休息（注视）区块分隔。每个任务区块由20次试验组成，每次试验包括4秒的决策期和1秒的结果期。

2.4在线数据库 ¶

一个包含617名健康受试者的在线IGT数据库，被试完成的IGT试次数在95至150次之间，仅分析了504名被试的数据。

2.5计算建模 ¶

2.5.1基线模型 ¶

假设以固定概率选择每一副牌，选择A,B,C牌的概率分别为PA,PB,PC，而选择D牌的概率为PD=1－（PA+PB+PC)。

期望效价学习（EVL）：Expectancy Valence Learning（EVL）模型是一个用于解释和模拟人类在Iowa Gambling Task（IGT）等任务中如何做出决策的心理模型。它结合了期望值理论（expectancy theory）和强化学习（reinforcement learning）的概念，用来描述人们如何根据过去的经验来形成对未来奖励的期望，并据此做出选择。

EVL包含三个核心心理机制（参数）： 1.学习率 (learning rate, ϕ / α)：表示人对新反馈的敏感程度，数值越大，代表对最新的奖励/惩罚反应越强，更新期望越快 2.记忆或遗忘参数 (memory decay / recency)：控制对旧信息的遗忘速度；有助于模拟人在决策时更依赖最近的经验还是长期平均 3.情绪权重 (valence weighting, w)：控制人对正面奖励（gain）和负面惩罚（loss）的重视程度；比如某些人对“损失”更敏感（loss aversion），那么他们在模型中会有较高的惩罚权重

前景效价学习（PVL）：Prospect Valence Learning (PVL) 是对 Expectancy Valence Learning (EVL) 的升级和拓展，用于更真实地模拟人类在Iowa Gambling Task（IGT）中的复杂决策行为。它是一个将行为经济学、心理学和强化学习结合的计算模型，结合了“前景理论（Prospect Theory）”中的价值函数和学习机制，用于解释人们如何在风险和不确定的环境中学习并做出决策。

PVL模型的重要参数：

sensitivity：奖励/惩罚的非线性敏感性；控制感知价值的曲线弯曲度（0~1）
loss aversion：控制人们对损失的厌恶程度（λ > 1 表示更怕损失）；
learning rate：学习率，控制对新反馈的权重；
consistency：决策一致性，控制行为是否随期望值严格选择（相当于 softmax 的温度参数）；

图二a：

VPPDecayTIC model：解释人类决策行为的经典强化学习模型，由多个组件构成（VPP+Decay+TIC）

VPP：Value-Plus-Perseverance，包含“价值评估”和“坚持行为”两个成分；

Decay：Decay learning rule，用衰减式学习规则更新期望值；

TIC：Time-Independent Choice rule，一个与时间无关的选择规则，用于从期望值推导行为选择概率

VPPDecayTIC 试图模拟人们在价值导向的决策任务中是如何做出选择的，

VPPDecayTIC 包含三个关键阶段：

1.估算效用（Utility）：使用“前景效用函数”（Prospect Utility）计算每次选择的回报；

2.期望更新（Expectancy）：通过Decay learning rule（衰减学习规则）更新期望值；

3.做出选择（Choice）：使用TIC规则（TIC rule）从期望值中导出选择概率。

图二b：The QSPP model 是一种结合了量子理论与强化学习的行为决策模型，全称为：Quantum State Plus Perseverance model 量子状态-坚持模型

由两个关键部分组成：

1.Quantum State（量子状态）：

用量子振幅（amplitude）来表示内部心理状态；

个体在决策前并不是“确定”要选哪一项，而是处于叠加态；

选择行为的发生类似于量子坍缩（collapse）过程——做出选择即状态坍缩为某个动作。

2.Perseverance（坚持/惯性）：

表征重复选择某个选项的倾向（如前一次也选了这个deck）；

是对经典模型中“选择惯性”成分的量子建模。