什么是心理理论?心理理论与智力的心理测量学研究



文献:Navarro, E. (2022). What is theory of mind? A psychometric study of theory of mind and intelligence. Cognitive Psychology, 136, 101495. https://doi.org/10.1016/j.cogpsych.2022.101495 论文原文

心理理论是一种社会能力和交际能力的基本能力,是理解不同于我们自己的行为所必需的。最近的研究表明,为测量Tom而设计的任务不能充分捕捉到Tom的单一能力。相反,可能与一般认知能力的任务有关。这阻碍了对实验结果的解释,并对ToM结构的有效性提出了质疑。目前的研究是迄今为止第一次对Tom的结构进行心理测量学评估。本研究将ToM与固定智力(GC)和可变智力(GF)进行比较,旨在 (A)了解ToM是否应该被认为是一种整体能力 (B)探索ToM的任务是否在一般认知能力之外对ToM进行了充分的评估。 为此,进行了验证性因素分析(CFA)、探索性因素分析(EFA)和探索性网络分析(NMA)。 结论:这些模型的结果在很大程度上指向相同的结论:尽管ToM任务不仅仅是评估认知能力,它们也不是纯粹地评估单一的ToM结构。重要的是,这些发现与最近的理论研究相一致,这些理论提出,心理理论不应该被认为是一个整体的结构,而应该作为多个领域来探索和测量。

人类如何理解他人的感受和信念呢?心理学家和哲学家长期以来一直在问这个基本问题。心理理论(ToM)被认为是根据他人的行为理解他人的信念、知识和意图的能力。这个术语最初是由Premack和Woodruff(1978)创造的,指的是黑猩猩推断人类目标的能力,很快被心理学家用来研究人类推断和预测他人行为的能力。紧随其后的是关于这一主题的大量研究。令人惊讶的是,尽管已经深入研究了心理理论与多种结构之间的关系。到目前为止,还没有研究对ToM的结构进行彻底的心理测量学检查。也许正是由于这个原因,尽管关于ToM的研究有很多发现,但目前还不清楚是什么认知过程削弱了ToM的能力。这在一定程度上是由于研究人员在操作ToM结构时的变异性。

研究表明,ToM与语言能力、执行功能和智商有关。且文献中使用的许多ToM任务的组成部分,从表面上看,与认知能力研究文献中通常研究的结构具有相同的过程。为了更好地理解ToM的组成部分,应该检查ToM任务和其他认知构念之间的关系。这将有助于阐明衡量特定ToM过程的任务,以及衡量其他相关但不同的认知能力的任务。 研究发现,ToM与智商有广泛的关系。这种关系可能是Tom和智力之间重叠过程的结果,但这一假说存在争论。了解ToM和智力之间的相似性和差异是必要的,以充分理解ToM任务在多大程度上评估高于一般认知能力的相同潜在能力。此外,越来越多的理论表明,ToM任务很可能利用了ToM能力的多个组成部分。心理测量学评估ToM与一般智力的任务相比较,可以为这两个开放的问题提供帮助。

本研究的目的是通过比较任务的表现与可变智力(Gf)和固定智力(Gc)的测量(Cattell, 1963),提供第一个对ToM任务的心理测量测试,并探索理论描述提出的主张,即ToM不应被视为一个整体结构。检查这些结构之间的差异将允许我们探索ToM任务所利用的过程是否代表一种独特的ToM能力,或者它们是否度量多个组件。为此,参与者完成了一系列的ToM、Gc和Gf任务。验证性因素分析用于检验数据的结构。我们假设,如果ToM任务代表一个整体的认知能力,那么一个三因素模型应该最适合数据。 此外,还进行了心理测量网络模型分析,以考察心理理论任务、GC任务和GF任务之间的关系。心理测量网络模型将认知能力概念化为由交互过程组成的互联网络。心理测量网络是一种强大的可视化工具,可以探索数据集中变量之间的预期或未知关系,并且与潜在变量建模不同,它们不受局部独立原则的限制。此外,网络建模可以考虑属于相同结构的任务之间的一对一关系,同时估计属于不同结构的任务之间的个体关系。

使用 Amazon’s Mechanical Turk (MTurk)招募了208名参与者的在线样本。参与者的数量是基于三因素验证性因素分析所需的最小样本量 所有参与者都在美国,年龄在18岁以上。受试者的年龄范围为18-69岁(男性=39.89;标准差=9.34,中位数=39)。116名参与者被确认为女性。在族裔方面,148名高加索人,13名黑人/非裔美国人,9名亚裔,3名西班牙裔/拉丁裔,7名混合族裔。23名参与者没有报告种族。无色盲,所有参与者视力正常,英语流利。剔除多变量异常值后的最终样本量为N=203。

这项研究的设计是一种相关方法,使用了两种不同的心理测量建模技术。为了进行因素分析,建议每个潜在结构至少包括三个任务。在本研究中,受试者共完成了9项任务:3 tasks of ToM, 3 tasks of Gf, and 3 tasks of Gc。参与者被随机分配以三种不同顺序中的一种完成任务。在顺序1(n=74)中,参与者首先完成GF任务,然后是GC任务和TOM任务。在顺序2(n=58)中,参与者首先完成TOM任务,然后完成GF和GC任务。在顺序3(n=76)中,参与者首先完成GC任务,然后完成TOM和GF任务。每个结构中的任务总是以相同的顺序呈现。参与者被允许在任务之间休息。完成这一系列任务花了大约90分钟。参与者获得了15美元的补偿。

在这项研究中,我们决定根据不同的标准选择三项任务。首先,我们选择了先前已经过验证和测试的措施,以避免天花板效应。其次,我们从TOM的不同领域选择了测量方法,从而在TOM结构中实现尽可能多的可变性。最后,我们选择了文献中常用的测量方法,同时也考虑了TOM任务所需的标准:非合并(即,一项任务需要代表与参与者的心理状态不同的另一个人的心理状态)和心理化(即,要想在某项任务中取得成功,就必须了解他人的心理状态,而不能将其归因于较低层次的认知过程)。 这项研究中使用的心理理论测量包括: (A)从另一个人的角度出发(即director task) (B)从人的眼睛推断心理状态(即Reading the Mind in the Eyes) (C)在不恰当的社交场合解读心理状态(Short Stories Questionnaire) 每一项任务都代表了心理理论的不同维度,即视觉视角选择(director task)、社会认知(Short Stories Questionnaire)和社会知觉(Reading the Mind in the Eyes)。这些任务持续了大约15分钟。

director task 该任务包括两个条件(Director, No Director)和两种试验类型(Experimental, Control)。刺激物被放置在一个4 × 4的架子上,架子上有8个不同的物体,排列在不同的位置。在Director条件下,Director站在架子后面。架子上的一些隔间是封闭的,从Director的视野之外,因此只有参与者可以看到那些物体。参与者被要求遵守Director通过演讲框给他们的指示。在每次试验中,Director要求参与者选择架子上的一个物体(例如,“小杯子”)。参与者通过单击架子内的正确对象进行响应。 参加者被要求在回应指示时考虑Director的观点。这被认为是对心理理论的评估,因为参与者必须记住,Director的视角和他们的不一样。在No Director的情况下,参与者被展示在同一个架子上,但Director不再在架子后面。相反,参与者被告知忽略所有放在红色背景槽中的物体。这种情况不需要心智理论,而是要求参与者在记住规则的同时抑制优势信息,因此只需要一般的执行功能。这两种情况呈现了实验试验(试验中包含一个目标和一个竞争干扰物,可能是最适当的反应,但只能从参与者的角度来看)、对照试验(试验中不包含竞争干扰物)和填充试验。对照试验和实验试验在整个任务中以伪随机混合的顺序出现,刺激的呈现顺序在参与者之间是平衡的。在每种条件下,参与者总共对16个对照试验、16个实验试验和64个填充试验作出回应。 参与者还在Director条件之前完成一个实践试验。参与者有5秒的时间对每个指令做出回应。计算了对Director条件的实验试验的正确反应。

Reading the Eyes in the Mind (RMET). RMET任务是在计算机上编程的。在这项任务中,研究人员向参与者展示了36张不同年龄的女性和男性眼睛区域的黑白照片。每次展示一张照片,参与者没有时间限制。与照片一起呈现的是四个描述眼睛所传达的潜在情感的词。参与者必须选择最能描述照片中人物感受的词(例如,悲伤、快乐、害怕、沮丧)。参与者可以通过链接访问任务词汇表。这项测试是为了评估一个人理解他人心理状态的能力。回答是自定节奏的。RMET分数以离散的方式从0到36不等。准确记录。该任务大约持续10分钟。

Short Stories Questionnaire (SSQ) SSQ 在Qualtrics上实现。该测试包含10个短篇故事,每个故事分为三个部分。这些故事包括一个角色的话语,可能会扰乱故事中的另一个角色。在这项任务中,参与者必须推断角色的精神状态(即,他们的感受,他们的想法)。一共有30节,每节至少有4句话。10个部分包含明显的目标话语(例如,错误地估计一个中年妇女的年龄),10个部分包含微妙的目标话语(例如,谎称记得某人的名字),10个部分包含填充对照话语(例如,讨论天气)。每个部分都包含一个问题,询问参与者故事中所说的某件事是否会让某人受到干扰,并指出文本的哪一部分与扰乱话语相对应。这10个故事都有一个填空题。故事的呈现顺序是随机的。回答是自定节奏的。计算了正确识别的目标数量。分数范围从0到20,以离散的方式进行。这项任务大约持续15分钟。

这些任务被认为是用来衡量遵守规则和解决新问题的能力。

Letter Series.在字母系列任务中(Ekstrom, Dermen, Harman, 1976),幕上呈现了四个字母的十个试验,每次一个试验。除了一组之外,所有的试验都呈现出遵循特定模式的四组字母。要正确回答,参与者必须选择不符合模式的字母集。回复后,下一组字母出现在屏幕上。 每次试验没有时间限制。在这个任务中测量准确性。参与者在完成任务前进行了三次练习。等待5分钟后,任务自动结束。 Number Series. 在数字序列任务中(Thurstone, 1938), 10个试验一次一个,显示一系列长度不同的数字。每一组数字都按照特定的规则或模式组织。参与者被要求在每次试验中从五个给定选项中选择与序列一致的数字。在完成任务之前,参与者被要求进行三次模拟试验。准确性是在这个任务中衡量的。等待5分钟后,任务自动结束。 Raven’s Progressive Matrices. 在本研究中使用了高级版本的Raven的数字归纳推理任务(Raven, 1938)。参与者总共完成了18个项目(Hamel & Schmittmann, 2006)。参与者被随机分配到两个任务顺序中的一个(单数试验或偶数试验)。每一项都是由8个黑白数字组成的图案的一部分,这些数字排列在一个3×3的矩阵中,其中最后一个右下角数字缺失(见图1)。在矩阵的底部是一个由八个可能的数字组成的列表可供选择。这些数字中只有一个是正确的答案,最好地完成了矩阵中缺失部分的模式。每一项都遵循一系列规则,参与者需要找到并记住这些规则才能找到正确的答案。参与者在完成任务之前接受了三次练习。计算出正确回答的总数。任务在15分钟后自动结束。

图1

图2

所有任务都被认为是衡量以前获得的知识 Synonyms 同义词测试向参与者呈现了10个单词,每个单词都有一个可能的答案列表。参与者必须选择与屏幕上显示的首个单词含义相同的单词。准确度是在这项任务中衡量的。参与者有5分钟的时间回答所有10个问题。 Antonyms 反义词测试与同义词测试相同,不同之处在于参与者必须从选项列表中选择与所显示的单词意思相反的单词。准确度是在这项任务中衡量的。参与者有5分钟的时间回答所有10个问题。 General Knowledge. 这项测试包括10个关于常识的问题(例如,“哪个行星离太阳最远?”)。参与者必须输入他们的答案才能回答,如果他们不知道答案,则被要求输入“我不知道”。准确度是在这项任务中衡量的。参赛者有5分钟时间回答所有问题。

表1给出了每个度量和可靠性估计的描述性统计数据。除了一项测量外,所有的测量都显示出足够的可靠性,以克朗巴赫的阿尔法来衡量每一个给定的结构(即,α≥0.70;1970年)。所有ToM任务的可靠性都是最低的,仅在最低值0.70附近。测量之间的双变量相关性见表2。Gf和Gc任务呈正相关或呈正相关。Gc和Gf指标也相互相关,这是基于智力模型的预期。正如之前的研究所表明的那样,ToM度量的相关性不太一致。此外,所有的任务似乎都与Gf的测量相关。例如,Director任务和SSQ与所有任务都呈现出低但显著的相关性,而不仅仅是与ToM任务,RMET似乎与Gf测量尤其密切相关。我们使用验证性因素分析进一步探讨了这些关系。

图3

图4

CFA结果表明,没有一个测量模型表现出良好的拟合。其中,根据Kline的拟合指数,模型1表现出较差的拟合度,没有在标准范围内的指数。模型2是一个双因素模型,其中GF和GC是潜在因素。在该模型中,传统的TOM和GF结构对应的任务基于它们的双变量相关性被组合在一起。模型2的拟合指数见表3。总体而言,基于Kline的拟合指数,模型2没有表现出很好的拟合,但大多数指数都接近良好的拟合。与模型1相比,模型2的整体拟合指数更高。模型2中的标准化因素负荷对于GC和GF因素是足够的,尽管TOM测量被加载到GF因素中。GF和GC之间的相关性很强(见图2)。这些发现似乎表明,尽管双因素解决方案并不是与数据完美匹配,但模型2总体上似乎比模型1更好,也不是对数据的完全歪曲。最后,模型3被用来检验理论驱动的三因素模型是否提供了更充分的数据表示。模型3是一个三因素模型,其中每组任务都根据它们理论上所代表的心理结构进行分组。模型3对潜在因素的协方差均大于1,说明模型存在错误。这可能是由于ToM任务之间的弱相关性。此外,与预期相反,拟合指数表明模型对数据没有表现出良好的拟合。与Gc和Gf任务不同,ToM任务均呈现低加载路径,且ToM因子与Gc和Gf因子的相关性均大于1,提示ToM因子中的任务可能与其他因子中的部分任务存在重叠方差。为了进一步了解这一点,修改指数被用来重新检查模型3。模型3的修正指数表明,如果GF和TOM都预测RMET,模型的拟合度将会提高(见图2)。这一修改显著改善了模型的拟合度(见表3)和TOM潜在因子的显性变量负载,并避免了超过1的协方差。这表明RMET对这两个结构都有影响,因此该任务评估了这两个结构的共享过程。模型3的拟合指数与模型2接近,只是略有提高。 总体而言,根据拟合指数,所有模型都没有表现出很好的拟合,改进的模型3提供了最合适的指数,但与其他模型没有差异。此外,由于模型的错误指定,模型3必须根据修改指标进行后验修改。这些发现表明,与其他人发现的一样,用于测量ToM的任务与Gf的任务具有共同的过程。事实上,修正的CFA模型表明,RMET与Gf共享过程,在ToM和Gf下同时加载RMET的模型改善了模型拟合。

图6

图7

图5

鉴于CFA不符合,我们决定进行探索性因素分析(EFA),以了解这些数据是否真的能很好地代表在CFA中构建的测量模型。一项平行分析表明,应该保留两个因素,而不是三个因素。这表明,第三个因素可能太小了,只不过是随机噪音。考虑到变量之间的相关性,旋转估计为Oblimin 3。载荷大于0.30的所有变量都被认为是基于给定系数的载荷。当保留两个因素时,TOM任务被加载到与GF任务相同的因素下,这反映了模型2 CFA的结果。为了进一步探索数据,我们还遵循理论框架进行了保留3个因素的全民教育。结果表明,在相同的因子下,各指标的GC负荷都是充分的。其中RMET和director任务被加载到GF因素下,而SSQ被单独加载,表明这里测试的TOM任务并不代表一个统一的结构。

具体地说,网络模型表明,已建立的Gc和Gf结构的度量在相应的任务之间表现出很强的优势,并且总体上聚集在一起。然而,ToM任务是稀疏相关的,具有弱边缘。这些节点也更接近Gf任务(特别是Raven的任务),而不是彼此之间。具体来说,RMET似乎与所有Gf任务相关,但只在SSQ任务中呈现出弱优势,而在director任务中则没有优势。类似地,director任务与Gc和SSQ共享边缘,但与RMET不共享,而SSQ与ToM任务和Raven的任务都呈现弱边缘。本研究中测量的三个TOM任务之间的相关性并不像之前认为的那么强,从而质疑了TOM作为一个整体结构的整体观点。

图8

本研究构成了第一个ToM结构的心理测量评估。目的是将ToM与结晶智力(Gc)和流体智力(Gf)进行比较,以(a)理解ToM任务是否测量相同的构造,或者它们是否评估ToM的不同组成部分,以及(b)探索这些任务是否评估ToM能力,高于或超过一般认知能力。更广泛地说,该研究有助于新的理论方法,将ToM视为一个多维结构,而不是一个整体能力。

总的来说,这些发现表明,至少在神经典型的成年人样本中,一些最常见的ToM测量并不能充分代表一个单一的结构。 更广泛地说,目前的发现为TOM现有的理论框架提供了支持。具体地说,代表TOM不同领域的多个任务形成了一个潜在结构(即使它可以改进),这一发现支持了Schaafsma等人的观点。(2015)。也就是说,可以有多个领域特定的过程,这些过程彼此相关,但代表社会认知的不同方面,而不是单一的TOM。虽然这项研究没有包括详尽的TOM领域,但本研究的发现表明,TOM的不同领域是相互关联的,尽管与一般认知能力有关,但它们是可以区分的。此外,这些任务所代表的领域呈现出心理测量学上的不同性质,这使得描述单一的潜在因素变得困难。相反,基于Schaafsma和同事的模型,NMA可以更好地描述Tom的领域。在随后的研究中,应该对每个领域的更多任务进行检查,以证实这些初步结果。

虽然描述这些发现背后的确切机制超出了本文的范围,但TOM和GF任务之间的关系可能是由于TOM任务之间的差异和TOM-GF任务之间的趋同。换言之,每一项心理理论任务都利用了不同的心理理论维度(即社会情感、社会知觉、观点采择),而它们在某种程度上都需要繁重的流畅推理。因此,有可能TOM的这些子维度是不相关的,从而导致较弱的相关性,但它们仍然依赖于一般的认知能力。这表明,对心理理论的各个组成部分进行进一步的研究是有益的,而不是单一的心理理论能力。也就是说,就像许多研究致力于识别和理解一般智力的组成部分(例如,加工速度、长时记忆提取、视觉空间能力)一样,心理理论研究将受益于对其组成部分的类似识别和研究。

虽然这些发现表明TOM被更好地表示为一个多领域结构,反映了成年人之间和内部的个体差异,但这项研究中定义的模型可能在其他人群中有所不同。未来的研究应该考察TOM各领域在早期是如何相互联系的,以及该结构的发展变化。

总之,这些发现表明围绕着ToM的概念化存在着系统性的问题。这在研究中引发了严重的不一致,既涉及测量的有效性,也涉及通过在实验设计中使用这些测量提出的主张。

该研究表明,由ToM任务度量的过程不支持ToM的整体视图。为了进一步探索形成ToM的领域的多样性,研究人员应该考虑ToM的理论解释,考虑该能力的动态性质,并对每个提出的领域采用可靠和有效的测试,以更充分地捕捉ToM能力。开展这项重要的心理测量工作将使研究人员能够协调ToM的发育、临床、认知和神经学研究。