文献:Wang, L., & Leslie, A. M. (2016). Is Implicit Theory of Mind the “Real Deal”? The Own-Belief/True-Belief Default in adults and young preschoolers. Mind & Language, 31(2), 147–176. https://doi.org/10.1111/mila.12099

1.背景介绍 ¶

当我们向别人询问信息时，会自动假设他的信念是正确的，我们不仅在需要当前缺乏的信息时做出这种假设，在我们已经掌握了相关信息并试图推断另一个人的信念时也主张这种假设，我们将这种归因称为真实信念默认值（true-belief default）。在心理理论的背景中，至少在我们对同一事物有信念的情况下，真实信念默认值可以简化计算他人信念的计算任务。在日常事务中，人们的信念通常是真实的，因此将我们自己的信念作为对另一个人的信念的最佳猜测具有普遍有效性。

1.1计算错误信念： ¶

预测他人的行为取决于计算该人对世界的看法的能力。根据信念-欲望模型，早期信念－欲望推理是一个自发过程，首先根据给定的主体的环境推断出主体的信念b的内容，然后根据给定的主体的期望d和在该环境中的信念b推断出一个动作。这个过程分两个步骤进行：首先，一种心理理论机制（ToMM）为信念内容提供了假设，这些假设通常有一个“真实信念”（TB），与孩子自己对情景的信念相对应。此外，在虚假任务中，ToMM通常基于主体对场景的视觉（或其他信息性）访问为“虚假信念”（FB）说出合理的内容。其次，选择过程（SP）会检查假设，并且默认情况下会选择归因于TB的内容（自己的信念），除非它有足够的能力抑制这种默认趋势，因此，根据暴露的历史e（history of exposure e）（即FB内容）选择内容。

1.2新浪潮，旧问题： ¶

近年来，新的研究浪潮支持早期能力理论，这些研究已经适应了标准的虚假任务，消除了口头上的内容或将其减少到最低限度。一种可能性是，儿童早期在错误信念任务上的成功是因为这些任务对执行过程没有要求，纯粹依赖于自发反应，而失败是由于它需要“引导”，例如指向或口头表达。如果自发反应不需要执行过程，则可以解释儿童早期错误信念任务的成功和后来的失败。但是一些违反预期的时间研究表明，执行能力可能仍会起作用，比如婴儿观看行为错误信念任务比观看行为真实信念时间更长，这表明错误信念的抑制要求可能会影响违反期望的注视。

1.3是什么驱动了表现（performance）限制？： ¶

为了更好地理解标准口头错误信念任务和早期成功的非语言任务在处理要求上的关键差异，研究者设计了两个使用预期注视（anticipatory eye-gaze）衡量的实验。现有使用此方法的研究仅对成年人执行“高要求”任务（目标物体隐藏在场景中，被试知道其位置）进行了测试，或者对学龄前儿童只使用“低要求（与被试自身信念的竞争越少，就越容易将替代信念归因于演员，从而创建了“低需求”虚假任务。）”任务(在目标物体完全从场景中移走后，被试不确定目标物体的位置)，这会破坏被试对真实信念的确定性，从而更容易将错误信念归因于主体。

1.4本研究的目标： ¶

首要目标是确定“新潮”早期成功任务是否需要执行要求；第二个目标是解决错误信念任务中表现（performance）要求的本质，是来自现实还是真实信念偏见；确定在相同任务上，儿童和成年人之间是否存在差异。

2.实验1 ¶

视频：一名演员站在屏幕后面，头部在屏幕上方，演员的两侧各有一个窗口，每个窗口的前面下方有一个容器，木偶将玩具藏在其中一个容器中，随后照亮两个窗户，并伴有铃声，这些信号共同表示主体将要去拿玩具。场景1：当主体将头转走时，木偶将玩具从场景中移开，然后，主体转回头，并在发出信号的同时记录婴儿视线。这是一种“低要求（LD）”的错误信念条件，因为目标已经从场景中移除。场景2：真实信念（TB），当木偶将玩具重新放置到另一个容器中时，主体回头面对场景，并看到玩具的最终位置。场景3：高要求的错误信念（HD）：主体在玩具被重新放置后才回过头。看到木偶空手离开场景，在HD条件下，主体应该错误的认为玩具仍在最初的容器中，但实际上它在另一个容器中。研究者预测，在FB-LD条件下，对目标有错误信念会更久的注视窗户，在TB情况下，更多的注视物体的实际位置，在FB-HD条件下的观察模式可以告知我们潜在的过程，现实偏见将注意力吸引到TB的同一侧，如果没有偏见，注意力会转移到错误信念一边。在TB和FB-HD情况下，现实偏见都预示着不同的注视重点应该放在藏有对象的盒子上。相比之下，心理理论则预示着对搜索（行动意图）的关注，而不是对成功结果（找到目标的对象）的关注。简而言之，对现实的关注应该是关注盒子而不是窗户。

2.1方法： ¶

被试：81名2-3岁儿童（47名女孩，平均年龄36.3个月）；163名17-28岁成人（85名女生，平均年龄19.6岁）。每个被试观看了三个视频，两个熟悉练习视频和一个条件随情况而变化的试验。所有视频开始的场景都是相同的。 LD错误信念条件：木偶显将球放在左侧的容器中并离开，此时铃声响起，主体转过头去听铃声，然后木偶再次出现，把球转移到右侧容器，关闭两个容器的盖子后，木偶停顿一秒种，再次打开右侧容器的盖子，取出球，关闭盖子，将球完全移除场景，木偶消失后，铃声停止，主体转回场景，窗户亮起并发出提示音，表明主体将要搜索球，窗户持续亮2秒钟，之后图像静止1.9秒。 HD虚假信念条件：在木偶将球从左侧容器重新放置到右侧容器后，木偶空手离开。主体像上述一样回头，视频的其余部分相同。 TB条件：当木偶将球放入右侧容器时，主体转回面对场景，从而看到了球的最终位置。使用Tobii T60 XL眼动仪记录被试第一眼注视的潜伏时间以及他们朝着感兴趣的五个区域（两个窗口，两个容器和演员的头部）注视的持续时间。4秒预期记录之后，成年人会被问“她会去哪里找球？”，以他们自己的角度来看，他们的回答被记录为“左侧容器”或：右侧容器，进一步编码为0（与主体信念不一致）或1（与主体信念一致）。

2.2结果： ¶

2.2.1优先看窗户还是容器： ¶

通常，被试对主体和窗户更感兴趣，对容器的关注较少，也就是说，被试看窗户的时间明显比看容器的时间长。无论在哪种条件下，对窗户的偏好都保持不变。为了检验对容器的观察是否受到对隐藏对象的偏见(“现实偏见”)的影响，研究者结合被试在HD和TB条件下对容器的观察时间(目标对象隐藏在场景中)，并将其与在LD条件下被试对容器的观察时间(两个容器都是空的)进行了比较，发现，当目标被隐藏在场景中时，被试没有向容器看更长的时间。研究者又将被试在HD和TB条件下对“现实”容器的观察时间，与在这两个条件下对空容器的观察时间进行比较，发现没有差别。这表明，人们并不会倾向于查看隐藏物体的位置，这与“现实偏见”假说相矛盾。

2.2.2预期情况下观看窗口： ¶

研究者分析了被试对窗户的观看时间，以此来衡量被试对主体行为的预期。被试可能会首先根据铃声转向主体应该到达的窗口，给出她的错误信念(“FB窗口”)或演员真实应该到达的窗口，给出一个真实的信念(“TB窗口”)，儿童和成人的预期第一眼（anticipatory first looks）在不同条件下均存在显著差异。根据之前的研究，儿童和成人在真实信念和低要求错误信念条件下，通过眼睛注视来衡量信念一致的预期，研究者对每种条件下的预期第一眼进行了一组有计划的比较。在LD条件下，2到3岁的儿童和成年人都更可能首先朝FB窗口看；在TB条件下观察到相反的观看模式，被试优先选择TB窗口；在HD条件下，被试没有表现出第一眼偏好。结合不同年龄的第一眼观看，LD和HD条件以及HD和TB条件在预期方向上有显著差异。

由于在测试试验中没有达到预期的结果，因此在4秒钟内优先看的时间（preferential looking time）是自发预期的进一步指示。研究者将被试对TB窗口的注视时间减去对FB窗口的注视时间，再除以对两个窗口的注视总时间，计算出了差异注视分数(DLS，differential looking score)。因此，DLS在-1到+1之间变化，正数表示对FB窗口的偏好。年龄（2）（学龄前儿童，成人）×条件（3）的方差分析（ANOVA）仅显示条件的主要作用，计划的t检验显示LD和HD之间以及HD和TB之间的平均DLS显著不同：在LD条件下，被试表现出对FB窗口的偏好；在TB条件下，被试表现出对TB窗口的偏好；在HD条件下，被试花费相同的时间看TB和FB窗口。

2.2.3口头回应（成人）： ¶

对于所有成年被试，LD60/66，HD57/62和TB38/44可正确预测该主体在她的信念下的行为。在所有情况下，他们的口头反应都比他们第一眼的自发预期更准确。对于那些看窗户被试来说，LD中的42/44，HD中的38/42和TB中的26/31根据其信念正确地预测了主体的行为。在LD和HD条件下，他们的言语反应比自发的第一眼观看预期更为准确。

2.3讨论： ¶

在真实信念场景中，2到3岁的儿童正确地将信念归因于主体，在低要求错误信念场景中，也正确地将信念归因于演员。然而，知道隐藏目标的具体位置将被试在高要求错误信念场景中预测主体行为的能力降低到“偶然水平”。令人惊讶的是，这些要求同样降低了成年被试的能力。总之，这些发现表明，预期注视（anticipatory eye gaze）、自发的非语言预期（包括第一眼看和偏好预期）都无法逃避非语言虚假任务的执行要求。

2.3.1三重模式： ¶

不论条件多少，虚假任务几乎总是伴随着只有两种响应模式之一，即“通过”或“失败”。但是，本研究产生了三种不同的模式。在TB条件下，视线迅速移到窗户上，主体可以通过窗户朝她和被试知道装有目标物体的容器伸手；在FB（LD）条件下，视线迅速移到对侧窗户，主体可以通过该窗户到达她认为装有目标物体但被试知道是空的容器。统计上，FB（HD）条件下与以上两种条件均不相同，在这种条件下，视线同样有可能转移到任一窗口，就像是真实/自己的信念和错误的信念一样，同样引起了被试的注意。由于成人被试的行为方式与幼儿相同，可以排除不成熟为实验1中三重模式出现的原因。

2.3.2现实偏见还是自己信念/真实信念偏见？： ¶

在许多情况下，“现实偏见”和“真实信念偏见”的相互竞争假设将预测相同的反应。在后一种情况下，被试采用的是心理理论，而在前一种情况下，被试则没有。两个现实偏见假设的合理性是，要么“现实拉动（pull of the real）”会暂时禁用心理理论，要么是概念上的缺陷，意味着被试除了专注于世界与行为的互动之外别无选择。无论哪种方式，在真实信念和高要求虚假信念条件下，“现实拉动”都可以预测隐藏对象的实际位置将视线吸引到盒子上。本研究的发现并不支持这些预测，然而，尽管发现与现实偏见相矛盾，但它们还不支持真实信念偏见，被试的注意力可能被亮起的窗户和铃声转移了。虽然不能解释不同条件对两个窗户的注意力，但这可能可以解释为什么被试在那个时刻不看盒子。下一个实验在排除了这样的可能性的同时，测试了同样的偏差预测。

3.实验2 ¶

引入了一种新的分屏设计来测量预期的眼睛注视。被试观看两段熟悉视频：主体把兔子放进两个盒子中的一个，然后说，‘让我去拿它的胡萝卜’。她转身去拿胡萝卜，又转回来，把胡萝卜放在桌子上的两个盒子之间。此时，视频分成两个较小的屏幕，一个在左边，一个在右边。第二个视频也是一样的结构，兔子放在左边和右边的盒子是平衡的。熟悉视频分割场景后，紧接着是音频，在左侧屏幕上，主体将手伸向左侧的绿盒子，右侧屏幕上，主体将手伸进右侧的红盒子。这样做的目的是：两个屏幕可用于测量差异动作的预期-左侧屏幕始终描绘了演员到达左侧框的位置，右侧屏幕总是描绘了演员到达右侧框的位置；分割代替了铃声和窗户亮起，作为主体即将执行动作的信号。研究者认为，婴儿可以通过将眼神转移到描述他们预期动作的屏幕上，来表示动作预期。

试验视频，主体有一只玩具狗和一根骨头，视频播放方式与上述相同，但实验条件不同，主体的转身角度有所不同：错误信念(FB)高要求(HD)条件：狗爬出原来的盒子，进入另一个盒子。 FB低要求（LD）条件：狗从第一个盒子出来进入另一个盒子，然后走出第二个盒子，移动到舞台中央，然后跳下来完全离开场景。真实条件：狗从原来的盒子移动到另一个盒子，但当狗爬进新盒子时，演员转身面对场景，因此，看到狗的最后位置。在视频分割时，主体说“让我来找到狗”，自动眼动仪记录了被试在分割后600毫秒内的注视情况。试验目的：研究被试的自发凝视是否预期主体的搜索将在LD和TB条件下的适当相对位置，而在HD条件下，预期注视是否再次在两者之间保持平衡；分割之后，物体的实际位置在两个屏幕中都相同，现实偏见在FB-HD和TB条件下都预测相同的注视。如果真实直接“吸引”被试的注意力，那么两个屏幕之间的目光会平分(FB-LD也是如此)；反之，在FB-HD和TB条件下，被试应该看向相同的屏幕，而在FB-LD的两个屏幕之间均分。与之相反，真信念偏差预测TB条件下主体对信念合适屏幕的预期程度、FB-LD条件下主体对信念合适屏幕的预期程度、以及FB-HD条件下屏幕之间的均衡程度。

3.1方法： ¶

被试：FB-HD：27名儿童（平均年龄=37 m）和35名成人（平均年龄= 19.2岁）；FB-LD：30名儿童（平均年龄= 36 m）和36名成人（平均年龄= 19.6岁）和TB：30名儿童（平均年龄= 38 m）和42名成人（平均年龄= 19.9岁）。 T60 XL眼动仪记录了被试的视线。在显示分割屏幕的第一个视频帧之后，测量了被试对屏幕的预期第一眼（凝视移动）。仅在分割后的前600毫秒内凝视（这两个屏幕仍然相同，直到到达结果之前）才被认为是预期的。测试结束后，立即问成年人：“她会在哪里寻找她的狗？”他们的回答记录为红色框或绿色框，并进一步编码为0（与主体的信念不一致）或1（与主体的信念一致）。

3.2结果： ¶

分屏方法显示了在所有条件下可能达到的结果，任何将第一眼向一侧移动的系统偏好都只能通过偏好该屏幕上结果来解释，因此，对特定结果的偏好反映了被试对分裂前主体行为的预期。问题是测试试验的要求是否会在600ms内影响被试的第一眼预期。儿童和成人的第一眼预期在不同条件下均存在显著差异，根据实验1的结果，对预期的第一眼注视进行了一组计划的比较。在LD条件下，2至3岁的儿童和成人都倾向于先看FB屏幕；在TB条件下，儿童和成人倾向于先看TB屏幕；在HD条件下，被试没有显示出对FB屏幕的注视偏好。鉴于儿童和成年人显示出相同的预期模式，因此研究者将各个年龄段的结果进行了合并。综合预期分析表明，在LD和HD条件下的第一眼注视在预期方向上显著不同，HD和TB条件也是如此。有证据“证明”被试的预期第一眼注视在TB条件下偏好TB屏幕，在HD条件下，屏幕之间的第一眼注视是平衡的。在HD和TB条件下，言语反应比自发预期注视更准确，但在LD条件下则不然。

3.3讨论： ¶

研究发现，通过预期注视来衡量的自发性、非言语性预期受制于错误信念任务的各种执行要求。再次发现了三种不同的响应方式，每种情况都对应一种。高要求虚假信念条件下的响应模式再次在虚假信念和真实信念之间取得了平衡。

3.3.1对行动的预期和信念的归属： ¶

问题是600ms的时间是否足够反映信念归属，被试可能需要更长的时间才能选择虚假信念，因为他们难以抑制自己的（真实）信念。

3.3.2现实的偏见或自己的信仰/真实的信仰的偏见？： ¶

发现了与实验1相同的三重模式，研究者将这些结果解释为对真实信念默认值偏好的自发信念归因的支持。

4.总结 ¶

正如早期能力（competence）理论所预测的那样，在低要求虚假信念和真实信念场景中，观察到了适当且相反的注视模式。2到3岁的孩子期望主体按照她的错误信念行事，因为该主体认为现在不存在的目标物体仍隐藏在其中一个容器中。但是，当主体看到目标物体进入最后位置时，孩子们会期待该主体表现出真实信念。在要求高错误信念场景中，演员不知道目标对象是否从一个容器重新放置到另一个容器中，孩子们预期到主体会在每个容器中进行相同的搜索，从而显示出明显的第三种目光注视。这种预期模式并未反映出学龄前儿童的能力不足。总而言之，有证据表明，幼儿可以执行“三重推理（triad of inference）”的所有三个部分：假设信念B和期望D来预测主体的行为A；假设行动A和期望D推断出主体的信念B；假设行动A和信念B推断出主体的期望D。