文献:Baker, C. L., Jara-Ettinger, J., Saxe, R., & Tenenbaum, J. B. (2017). Rational quantitative attribution of beliefs, desires and percepts in human mentalizing. Nature Human Behaviour, 1(4). https://doi.org/10.1038/s41562-017-0064

1.背景介绍 ¶

社交认知取决于心理化能力（mentalizing），或者说是根据行为主体的心理状态来解释其行为的能力。从短暂的非语言互动中直观地了解他人的想法或想要什么的能力对我们的社交生活至关重要。人类不仅将他人的行为视为动作，而且还将其视为有意的行为：计划的结果是试图实现基于自己的信念的愿望；当信念不完整或错误时，通过寻求感知来更新它们，以便更有效地采取行动。然而，当前对这些心理状态推论的计算基础知之甚少。成人的心理状态推断（心理化能力）可能会利用一系列表征和过程，本研究关注的是核心心理化能力，即基于感知、行为和物理世界形成信念，并与视线范围内具有相似信念、欲望和感知的其他主体进行互动，它以某种形式在婴儿时期出现，并在生命的最初几年随着心理理论的丰富发展而持续发展。核心心理化是社会认知的一个方面，特别有可能根据做出精确定量预测的理性计算原理进行解释。研究者建立了一个模型对人类如何将心理状态归因于在复杂空间环境中移动的主体，在参数控制实验中对该模型进行定量测试，并与其它模型进行广泛比较。

基于模型的方法认为，人类对主体的思想和行为有一个直观的理论，从观察到的行为去推断心理状态；基于线索的方法假设心理化是从低级感官到高级心理状态的映射，如“因为你伸手去够某一个东西，说明你想要的这个东西”。然而，这些模型无法按照核心心理化的要求对信念、感知和欲望进行联合推理，要解释这些基本的心理化形式，需要一个基于模型的生成性解释。

2.实验场景和模型架构： ¶

一名学生（主体，三角形），在三种食品卡车中确定午餐。仅有两个停车位，即最多有两辆食品卡车停入，也可以只有一辆，其中一个停车位空置。示例中（第一帧）主体首先看到的是韩国菜（K）卡车（西南角），东北角停放着黎巴嫩菜（L）卡车，（第二帧）但是必须绕过建筑物（黑色粗线）才能看到，（第三帧）当主体看到黎巴嫩卡车后转身回到韩国卡车。观察者可以推断出：主体的信念和欲望，最喜欢墨西哥菜（M），其次是韩国菜（K），最不喜欢黎巴嫩菜（L）（图1a，欲望条形图），主体的目标被判断为一个场景中不存在的对象，观察者将其假定为主体最有效到达的目标，即主体对墨西哥卡车的心理表征（看到后，停下来转身）。观察者还判断主体最初的信念可能是墨西哥卡车停在远处（黎巴嫩卡车的位置）（图1a，信念条形图）。

这些推论具有任何计算模型都应该考虑的几个属性。首先，默认主体时近似理性的，他们将使用最有效的方法来实现欲望，这是他们先验知识和感知的理性功能；其次，这些推论是真正的元表征（metarepresentational ），代表了主体对现实和可能世界状态的信念和欲望；第三，推论强调了在心理理论中定义信念概念的三个关键的因果作用：信念是（1）主体的感知和（2）他们的先前信念以及（3）主体的行为的联合影响（图 1b）。因此，信念可以从关于主体的感知和先验的推理中向前推断，或者从主体观察到的行为（和推断的欲望）中向后推断，或者通过整合所有这些类型的可用信息来联合向前和向后推断。联合推断至关重要：即使观察者看不到黑线的另一边，让可以推断出那里有一辆卡车，如果主体去了就没回来，无论是哪辆卡车在哪，相比韩国卡车（K），主体都更喜欢那辆。核心推断是定量和动态的：第二帧主体喜欢墨西哥菜的推理强于第一帧，第三帧更强。

3.计算模型 ¶

BToM（贝叶斯心理理论）模型将心理化形式化为对理性主体的生成模型的贝叶斯推理。使用部分可观察的马尔可夫决策过程（ Markov decision processes） (POMDP) 定义了理性主体的核心表征（representation）（图 1b）：理性主体 (I) 感知世界状态（视线范围内的所有物体）和他们自己的状态； (II) 根据他们的感知和先验知识（推理）形成理性推理的信念； (III) 计划合理的行动序列——根据他们的信念，可以预期这些行动能够有效且可靠地实现他们的欲望（计划）。

BToM 将 POMDP 生成模型与候选心理状态的假设空间以及这些假设的先验相结合，以在给定情境的情况下根据主体的行为对其信念、欲望和感知进行贝叶斯推理。POMDP主体的信念由通过逻辑枚举（enumerating）可能世界的空间得出的状态的概率分布表示（如，食品卡车停放组合），给定主体感知和先验信念。主体的欲望与内在（intrinsic）成本或行动的负面效用（utility）进行权衡，假设主体每一步产生一个小的固定成本，这会惩罚冗长的动作序列，主体的欲望（desires）被假定为在单个事件中保持不变。

在观察主体的行为和随时间演变的情况（世界状态和主体的状态）的过程中，BToM 联合（jointly）推断主体不可观察的心理状态（信念、欲望和感知）的后验概率。通过使用 POMDP 对观察者的主体感知、推理和计划能力模型进行明确建模，BToM允许主体和观察者分别部分地观察到场景。

单个观察事件的模型推理（model inference）:

主体形成对其当前场景的感知，将他们的信念从初始信念 B0 更新为后续信念 B1，然后选择一个动作A。在单一动作的场景下，给定先验 Pr(B0,D, S) 超过主体的初始信念 B0、欲望 D 和场景S、上述原则 (I–III) 定义的可能性，以观察主体如何行动A为条件，BToM 观察者可以推断出心理状态的后验概率 Pr(B,D,P, S|A)（信念状态 B = {B0,B1}，欲望 D，和感知 P)，以及使用贝叶斯规则给定动作 A 的场景S：Pr(P|S)（对应于 I）代表观察者对主体在给定场景下看到的东西的期望（expectations ）；Pr(B1|P,B0)（对应于Ⅱ）代表了主体从初始状态B0到B1的信念更新的观察者模型。Pr(A|B1,D)（对应III）代表了主体有效计划过程的观察者模型。

假设主体通过样本化动作（sampling actions）来采取行动，其概率与它们的指数和参数β预期效用（softmax 函数）成正比。在此公式下，主体通常在每一步（time step）选择效用最高的（highest-utility）动作。

研究者通过制定一个名为TrueBelief 的基于 MDP 的替代模型来证明先前模型的局限性，并表明它们无法对作为核心心智化核心的信念、欲望、感知和世界状态的联合推论进行建模，而BToM 模型可以捕捉到这些推论。第二种替代模型，称为 NoCost，通过假设主体的行为是无成本的，在基于 BToM 和基于MDP（马尔科夫决策过程）的人们信仰和欲望归因的结论（accounts）中建立效率原则的必要性，将这两种替代模型制定为完整 BToM 模型的“受损（lesioned）”特例。

4.实验 ¶

研究者制定了一个基于行为的启发式替代方案，称为 MotionHeuristic，它将从主体的行为和环境中提取的线索直接映射到人们对主体的信念、欲望和世界感知的判断上。对于实验 1，MotionHeuristic 为欲望拟合了五个线性权重，为信念拟合了五个线性权重（weights），总共 10 个权重。第一个和第二个权重捕获了主体 (1) 朝着每个潜在目标或 (2) 朝着替代目标的行为与对该目标的欲望或对它存在的信念的归因之间的统计关联。最后三个权重拟合了对每个欲望和信念评级的先验偏差（priori bias）。对于实验 2，MotionHeuristic 为六个可能的世界评级（world ratings）中的每一个拟合了八个线性权重，总共 48 个权重。在这里前三个权重捕获了主体朝向每个点的行为与更受欢迎的卡车位于那里的评级之间的关联。其余五个权重捕获了对每个可能的世界评级的先验偏差。

4.1实验1：对信念和欲望的推断： ¶

主体信念bt，奖励r，状态序列x1:T，世界状态y。

4.1.1 被试： ¶

麻省理工学院大脑和认知科学学科库的 17名成员，6 名女性和 11 名男性。一名被试不理解说明被排除。

4.1.2实验设计： ¶

改变四个因素：(1) 目标配置（goal configuration）；(2) 环境配置；(3) 主体初始位置和 (4) 主体的高效路径；产生78 个是有效的（valid）场景。

卡车标签在每个场景中都是随机打乱的，场景以伪随机顺序呈现，每个场景都随机垂直或水平呈现，每个场景以10种颜色中的一种随机呈现主体，随机抽取一个男性或者女性姓名，确保被试不会将一个主体的相关信息概括到其他主体。

4.1.3 刺激： ¶

短动画（其中三帧）

4.1.4 过程： ¶

熟悉实验细节和场景，确保被试理解主体能看到和看不到的内容，解释了主体视域（isovist）的可视化。实验任务：评估主体对每个可能世界的信念程度（建筑物后面的黎巴嫩卡车（L）；建筑物后面的墨西哥卡车（M）；或建筑物后面没有任何东西（N））；评估主体对每辆食品卡车的喜欢程度，评分均采用 7 分制，信念评级是追溯性的（retrospectively）：基于主体的路径，评估场景开始时主体认为远处停车位的情况。

4.1.5结果： ¶

根据环境的结构和主体的动作，这些场景可以组织成七种基本场景类型（图 4a-g）。图 4a-d 中的两辆卡车；图 4e-g 中的一辆卡车。最初，主体可以去附近停车位（图 4a、e）中可见的卡车，或者去建筑物后面查看哪辆卡车（如果有）在远处（图 4b，f）；在检查远处后，主体可以返回到第一辆卡车（图 4c、g），或者继续到远处卡车（如果存在）（图 4d）。在主体绕过建筑物的所有场景中，当他们第一次看到远处的停车位时，要么暂停一帧，然后继续前往其中一辆卡车（图 4c、d、g），要么试验以不完整的路径（incomplete path）结束（图 4b，f）。

尽管 BToM 定量地预测了信念和欲望判断，但信念判断的拟合程度较低，并且在本质上也比 BToM 预测的欲望判断更具可变性。欲望判断主要在七种情景类型之间变化，但在同一类型的情景内变化很小，这表明场景几何（geometry）的细微差异（在场景类型中各不相同）对欲望判断的影响很小。场景类型中平均的 BToM 预测显示出与人类欲望判断的高度相关性，而在控制场景类型后，单个场景级别的 BToM 预测与人类判断没有部分相关性。人类信念推断以更复杂的方式变化：它们在七种情景类型之间和内部都存在差异。

与人类信念推断相对于欲望推断的更大的经验可变性（empirical variability）一致，BToM 模型显示，信念的情景类型方差比欲望大三倍，说明人们的信念判断（相对于欲望判断）受到场景类型中场景几何（geometry）的微小变化的影响更大，并且这种总体趋势也由 BToM 模型预测。

图 5b、c 显示 TrueBelief 和 NoCost 都能够在一定程度上预测欲望判断，但明显不如 BToM。图 5b、c 显示 TrueBelief 和 NoCost 都无法预测信念判断。基于运动的（motion-based）启发式算法（heuristic）能够预测信念推理以及 BToM，但在欲望推理方面的表现比所有模型都差。图 5d 显示，尽管基于运动的启发式与人类数据的相关性相对较高，但它对人类判断的定性（qualitatively）校准（calibrated）很差。

对特定场景类型的更定性分析说明了 BToM 如何捕捉人类心理化的许多微妙之处。图 4a-c 显示 BToM 和人类判断都与介绍中勾画的关于信念和欲望的直觉推断一致。BToM 密切预测了这些场景类型之间的差异，以及这些场景与其他（analogous）地点没有卡车的类似场景之间的差异（图 4e-g）。例如，在有两辆卡车的情况下（图 4a-d），当主体检查哪辆卡车停在远点（图 4c，d）而不是直接去近点的 K 卡车（图 4a）时，BToM 正确地预测了更强的推理：只有在图 4c、d 中，我们才能清楚地区分主体对所有三辆卡车的欲望强度，以及主体对所有三个可能世界的初始信念的强度。

BToM 还预测来自完整路径而不是不完整路径的更强推理（比较图 4c、d 和 4b 中的信念和欲望推理），是否存在第二辆卡车的情况有所不同：当远处有一辆卡车时，主体在不完整路径末端的短暂停顿被解释为弱证据，表明第二辆卡车可能不是主体希望看到的（图 4b)，而如果远处没有卡车停放，同样的短暂停顿并不能说明主体希望看到其他两辆卡车中的哪一辆（图 4f）。

4.2 实验2：对世界状态的推断 ¶

图10

4.2.1被试： ¶

176 名美国居民。

4.2.2实验设计： ¶

假设主体总是从北走廊的入口开始，然后在进入南厅、西厅或东厅之间进行选择。共产生9条完整路径，还选取了7条不完整路径，其中三个路径在初始展示时重复，因此共有19条不同的路径。每个被试对六种可能的食品车配置进行评分，共判断114次，食品车和刺激顺序在被试之间随机分配。阿富汗（A）、缅甸（B）和哥伦比亚（C）。

4.2.3 刺激： ¶

静态图片。

4.2.4 过程： ¶

熟悉阶段，介绍食品车可能的分配情况，收集对假设食品车始终开放的三个介绍场景的判断，示范食品车关闭的可能性。其余实验场景紧随其后呈现，要求被试对每个场景对六种可能的食品车分配情况进行可能性评分，0-10分（0 表示“绝对不是”；10“肯定”；5“可能”）。

4.2.5 结果： ¶

实验 2被试无法观察三辆食品车的位置，他们的任务是根据主体的动作推断这些位置。这些推车供应阿富汗 (A)、缅甸 (B) 和哥伦比亚 (C) 食物，它们可以位于三个位置中的任何一个：北 (N)、西 (W) 和东 (E) 点（见图 6a）。

告知被试：主体更喜欢 A 而不是 B，A 和 B 都优于 C，并且总是在环境中搜索，直到他找到开放的最高偏好的推车。为了进一步增加复杂性，推车 A 和 B 可以是打开的或关闭的，而 C 被假定总是打开的（因此主体总是至少有一个可用的选项）。尽管推车的位置和可用性（指定应用了 24 个可能场景中的哪一个）对被试是隐藏的，但它们对主体来说在视线范围内是可见的。

图 6a 显示了实验的环境和一个具有代表性的完整路径：最初只有北方位置在主体的视线范围内；走几步后，主体还看到了西部位置的情况；最后，主体返回起点并选择北部位置的推车。在观察这条路径后，被试对三辆食品车的所有六种可能空间配置的概率进行了评估。被试绝大多数认为一种配置最有可能，并且 BToM 模型同意：B车在北，A车在西，C车在东。

图 7a 显示 BToM 准确预测了被试的平均判断。图 7d 显示基于运动的启发式与人类判断的相关性微弱。图 7b、c 显示 TrueBelief 和 NoCost 也不太适合，这表明关于信念、感知和有效行动计划的联合推理对于这项任务至关重要。图 6b-g 说明了 BToM 模型能够为越来越复杂的路径（包括不完整路径）捕获类似判断的能力。在图 6b 中，主体直接前往北部位置，这表明他们在那里看到了推车 A（并且 A 处于打开状态），但 B 和 C 的位置未知。图 6d，人和 BToM 都推断，主体可能在西边看到了 A，但也有可能他们在北边看到了 A，而且 A 已经关闭，导致他们向西走，发现 B 车打开。图 6g 显示了该实验中最长的轨迹，主体首先看到北位置，然后检查西边，然后东边，然后返回西边位置，但是人们的推断不太确定， BToM 捕捉到了同样的歧义（ambiguity）。图 6c、e 显示了不完整的路径，这使人和 BToM 以反映理性预期值的方式对世界配置更加不确定。与实验1一样，这些和许多其他与人类直觉一致的定性预测自然从BToM中得出。

5.统计 ¶

一种用于评估拟合优度的非参数技术。BSCV 在比较具有不同自由参数数量的不同模型时很有用，就像我们在这里所做的那样，因为它自然地控制了可能的过度拟合。

6.总结 ¶

研究者提出，核心心理状态推断可以建模为概率状态估计和预期效用最大化规划过程的贝叶斯反演（inversion），条件是观察主体在给定环境中的行为。 BToM 模型定量预测了复杂的新场景中的许多社会推论，包括不同的环境背景和动作序列，对他人信念、欲望和感知的推论，以及用来解释他人如何探索和利用环境的不可观察的世界状态。人们的判断需要对信念、欲望和感知进行联合推理，这一点得到了损害这些表征中任何一种的模型的失败的进一步支持：这些模型不仅在缺失的表征中表现出缺陷，而且在与它们因果纠缠在一起（causally entwined）的剩余心理状态推断中也表现出缺陷。因此，理性主体模型的贝叶斯反演提供了一个强大的定量模型，用于说明人们如何理解心理和社会世界。