从四个预期性内隐心理理论任务的系统复制来探究内隐心理理论的真实性和稳健性

文献：Kulke, L., Von Duhn, B., Schneider, D., & Rakoczy, H. (2018). Is Implicit Theory of Mind a Real and Robust Phenomenon? Results From a Systematic Replication Study. Psychological Science, 29(6), 888–900. https://doi.org/10.1177/0956797617747090 论文原文

INTRODUCTION: ¶

心理理论是将信念、欲望和意图等心理状态归因于他人和归因于自己的能力，是人性和我们社会生活的基础。传统认为心理理论在3 ~ 5岁之间发展，取决于经验、语言输入等因素。也有研究发现即使在婴儿中也能发现心理理论的基本形式，它们可能在成年人中以很大程度上自发的、自动的和无意识的方式运作。证据的综合模式特别来自预期性错误信念任务。此类任务建立在标准的外显位置变化-错误信念任务上，其中物体在主人公不在场或在场的情况下被转移，随后的测试问题是主人公将在哪里寻找物体。此类任务不直接询问被试，而是利用被试自发的注视行为：当主人公返回场景时，被试是否会预期到主人公会根据自己的真实信念(即,物体实际在哪)或错误信念(即,其中主人公错误地设想物体在哪)进行搜索，并注视相应的位置。这些任务从婴儿期到成年期都可以而且一直在使用，表明内隐心理理论出现较早，在整个生命周期中都在运作，并且在神经学典范和自闭症成人之间存在微妙但关键的差异。影响深远的理论叙述建立在这些前瞻性的发现之上，包括本土主义者的观点（Baillargeon et al.， 2015;莱斯利，2005 年;斯科特和拜拉根，2017;Wang&Leslie，2016）和各种双系统解释，两者都假设存在早期发展的，或多或少模块化的，自动形式的心理理论。从理论的角度来看，鉴于这些发现是可靠和可靠的，目前争论哪种解释最能解释预期任务的发现。

而更根本的问题是,这些内隐心理理论的发现确实是否是真实而可靠的。现有的预期注视任务的积极证据仍然来自较少的研究和实验室,以及较小的样本量。且心理学诸多领域围绕复制危机展开争论，强调了出版偏倚和假阳性心理特征的危害。因此，现有内隐心理理论任务发现的稳健性、可复制性和可靠性需要仔细检查。此外，现有的研究没有提供关于预期性和相关内隐范式有效性的充分信息。而外显的心理理论任务，几十年的研究已经为其有效性提供了令人信服的证据：各种外显范式的趋同效度通过相关分析得以确立，对于大多数单个的任务，设计了严格的控制条件，排除了更简洁的解释。对于内隐任务，以上两方面的问题都没有得到解决。

本研究： ¶

为了检验预期性错误信念任务的稳健性和可靠性，本研究使用原始刺激和程序以及足够大的样本量进行了系统的复制研究。其次，通过确定预期注视范式在不同任务中的趋同效度，及对被证明可靠的任务的替代性解释的测试来考察预期注视范式的有效性。

方法： ¶

研究1和研究2使用了4个既定的预期性位置变化错误信念任务，这些任务以前曾用于婴儿、儿童和成人。共同点是被试看到与主人公有一定相关性的目标物体改变位置的短视频。这种位置的变化由主人公亲眼目睹或不亲眼目睹。当主人公即将寻找客体时，被试自发的信念归因可能表现为预期性地寻找主人公认为客体所在的位置（见图1~4）

(a) Schneider, Bayliss, Becker, and Dux (2012)

(b) Surian and Geraci (2012)

(d) Southgate, Senju, and Csibra (2007) and Senju, Southgate, White, and Frith (2009）

在研究1中，成人被试在一个会话中对所有4个任务进行测试，以检验每个任务的可复制性和跨任务的趋同效度：如果这些任务都使用相同的潜在能力，则任务的趋同效度应通过任务间的相关性来揭示。研究2只使用了4个任务中最严格的Schneider等人 ( 2012 )范式，在单个会话中排除多次测试或顺序的影响。

被试： ¶

研究1共测试119名神经典型成人(年龄: M = 23.9岁, SD = 3.68 ,范围= 18 ~ 35 ;男性33例)，其中43名( 36 % )通过了所有范式的原始纳入标准。研究二测试了91名神经典型性成年人(年龄: M = 23.3岁, SD = 5.48 ,范围= 18 ~ 47岁;男性25例)，其中9人因为原始标准被排除。被试按随机顺序接受4种不同范式(研究1 )或仅接受Schneider等( 2012 )范式(研究2 )。

采用眼动追踪技术测量预期行为。为了具有可比性，研究者计算了所有范式相同的总体结果指标，包括注视时间比例(对双眼分别计算)、差异注视分数( DLS )和首次扫视方向。DLS是正确侧和错误侧的注视时间之差除以两侧注视时间之和。为了考虑Schneider等人和Surian和Geraci范式中的真信念控制条件，分别们计算了假信念和真信念条件的DLS，并进行平均，得到一个总体的信念一致观。对于每个个体范式，研究者首先总结了原始发现，报告了本研究中相应分析的结果。见图5

结果： ¶

个体范式的可重复性： Schneider et al. (2012) paradigm:最初的结果只是部分重复：与原始研究一样，在注视时间上存在显著的信念×位置交互作用。但与原始研究不同的是，这不是由于寻找无物体位置(被试在错误信念条件下比在真实信念条件下对该位置的注视时间更长)的关键差异。 Surian and Geraci (2012) paradigm:本研究只复制了原来的消极结果，而没有复制积极结果。 Low and Watts (2013) paradigm:原始发现被完全复制。 Southgate et al. (2007) and Senju et al. (2009) paradigm:整体的原创性发现没有被复制，而对错误信念1和错误信念2条件的差异分析表明，只有错误信念1条件可以被复制。范式之间的关系:计算所有范式的DLS之间的相关性以检验聚合效度。结果发现，在任意两种范式中，平均DLS和复合DLS之间均无显著相关。一个潜在问题是，它在一个测试环节中向每个参与者展示了所有四种范式，具有潜在的顺序或多重测试效应。为了排除试次顺序或疲劳的影响，研究者进行了三次探索性分析。首先，针对每个任务，计算一个混合模型，考察任务在测试序列( 1 , 2 , 3 , 4)中的位置以及位置与其他因素的交互作用对DLSs的影响。结果发现，在任何范式中，位置对DLSs均不存在主效应或交互效应。其次，对于每个范式，只对最先完成该范式的被试重复预登记分析，以排除其他范式在该目标范式中对成绩的任何顺序效应或其他影响。这一结果与全样本分析的结果具有可比性。分析表明，范式立场没有显着影响，证明所有参与者的参与是合理的，与他们完成范式的位置无关。图6总结了当前的结果和对比原来的发现。

目前的研究未能复制以前观察到的Southgate等人(2007年)和Senju等人(2009年)、Surian和Geraci(2012年)以及Schneider等人(2012年)研究的完整模式。这里唯一完全复制的原始结果是来自Low和Watts(2013)范式的结果。

为什么只有Low and Watts(2013)范式被强有力地复制？一种可能性是，这种范式特别有效(可能是因为较低的加工要求或其他相关的任务因素)，因此是最敏感和最适合挖掘内隐心理理论的范式。相反的可能性是，由于潜在的混淆，这项任务可能特别容易出现不同的解释。为了研究第二种可能性，研究者进行了研究3a和3b。

3a和3b方法如下： ¶

原始实验中的两个干扰：1，在原始实验的两个熟悉流程中，物体总是放在同一侧，也是测试试验中正确的一侧(belief-congruent)。2，在最初的刺激视频中，这位女主角总是在试验结束时，测量预期目光的时间窗口开始之前，顺时针转回至与信念一致的位置。这两个情况都可能提示参与者看向belief-congruent的位置。对此研究者做了以下改进：原始视频被剪切和重新合并，研究3a中，Familiarization 1阶段，物体被放置在右侧，而Familiarization 2阶段，物体被放置在左侧(对照1)。研究3b女主角在试验结束时，测量预期目光的时间窗口开始之前，逆时针转回与信念不一致的位置(对照2)。见图7

结果：计划的独立样本t检验表明，原始条件和对照1条件之间没有显著差异，对照1和对照2条件之间没有差异，但原始条件和对照2条件之间有临界差异。总之，只有在位置的信念一致性与其他因素混淆的情况下，才能再现原始模式，因此，这种模式可能不反映基于信念的预期。

讨论： ¶

本研究考察了四种主要的预测性错误信念范式的重复性和效度。关于可复制性，研究1和2的结果表明，四个范式中只有一个是完全可复制的。研究一还调查了四种范式的表现以及它们之间的关系，但没有发现任何相关的证据，因此也没有找到趋同一致性。研究3a和3b更仔细和批判性地调查了研究1中证明可靠的唯一范式。结果表明，一旦排除了潜在的混淆因素，这项任务就不再显示出暗示内隐心理理论的预期外观。因此，原始和复制的发现可能会受到替代的、更简约的解释。综上所述，这些发现表明，预期性错误信念任务并不像之前假设的那样可靠和有效。目前的研究结果对内隐心理理论的启示有：1，内隐心理理论可能是一种真实的现象，但很脆弱，因此很难开发。也许预期注视范式只有在有限的情况下才能产生有效的结果。2，可能不存在一种独立的、隐含的、可能是模块化形式的心理理论(Heyes，2014)。相反，可能只有一种形式的心理理论以相对持久的方式发展，建立在语言经验的基础上，并利用中央认知资源。目前的信息不足以让人们在这两种可能性之间做出判断。目前的研究未能找到一些内隐心理理论任务的信度和效度的证据，但同样没有提供确凿的证据表明内隐心理理论不存在。不足：本研究中只对成年参与者进行了测试，而先前的研究表明，在预期注视任务中，不同的年龄没有差异，且预期性性任务最初是为儿童设计的，因此对成年参与者来说可能不够灵敏。为了得出更全面的结论，研究人员应该测试更多的年龄段。预期任务与其他隐式任务相比，如违反期望或启动，可能涉及更多的外部任务要求，掩盖了参与者的能力。因此，需要在独立和系统的复制研究中重新考虑其他隐式任务。目前的研究让人怀疑，关于内隐心理理论的深远理论是否建立在坚实可靠的基础上。因此，迫切需要系统的、大规模的、协作的多实验室复制和验证研究，以更系统地探索内隐心理理论是否是一种真实而稳健的现象，以及在哪些条件下，哪些年龄段可以测量。