语言理解中生命性加工的neural dynamics:来自量词-名词组合解释的ERP证据



论文信息 ¶

Zhang, Y., Zhang, J., & Min, B. (2012). Neural dynamics of animacy processing in language comprehension: ERP evidence from the interpretation of classifier-noun combinations.* Brain Lang, 120*(3), 321-331. doi:10.1016/j.bandl.2011.10.007

论文原文 ¶

关键词 ¶

句子理解;生命性;量词-名词组合;N400; P600; ERP

摘要 ¶

采用ERP实验,考察了量词-名词组合解释中生命性加工的时间神经动力学。被试阅读具有非规范结构的句子,”宾语+主语+动词+量词+形容词“。宾语名词和其量词有三种情况:1. 一致的 2. 不一致但是生命性一致 3. 不一致而且生命性也不一致。在两个不一致的条件下都观察到了N400效应,但是两个不一致条件之间却没有显著差异。当只分析对非规范结构接受度比较高的被试的时候,生命性不一致引发了P600,但是仍然没有N400。这些发现表明,生命性信息并不是立即用于名词及其量词的语义整合,而是在如P600所反映的后来的分析中使用。因此句子理解中的生命性加工的时间神经动力学可能受到生命性和与主题解释之间的相关性的调节。

引言 ¶

人类的大脑的不同区域似乎对有生命的东西和无生命的东西有不同的反应。在过去的几十年中,大量的研究通过检查复杂或句法歧义的句子的加工以及简单、句法明确的句子的加工来调查名词的有生命性在在线句子理解中的作用。 通过测量眼动,其他一些研究表明可以通过句子主语和关系从句中的名词的生命性来调节句法复杂性效应。具体来说,就是当句子主语是无生命的,而关系从句中的名词是有生命的时,与(复杂)宾语从句相关的难度会减少甚至消除,例如“the movie that the director watched received a prize” 而近期,生命性在句子理解中的作用提出了两种说法:1. 生命性信息可能以一种启发性的方式使用,造成了纯粹基于生命性的主题角色分配。(啥意思,不太懂)。这一主张的证据来自于一些ERP研究,一些需要有生命的物体才能完成的动作,当前面加了无生命的名词时,例如“鸡蛋会种植…”这时候引发的是P600,而不是N400(语义的N400,句法的P600?),P600此时被解释为了可能反映了animacy heuristic的输出和句法分析的输出之间的冲突。2. 第二种主张更强烈,认为生命性是一种突出信息,能够影响不同角色之间的解释关系的建立,即使是在一些简单句子中。例如在汉语句子理解的过程中,与有生命的施事论元相比,无生命的施事论元在有生命的受事论元中遇到之后的N400更大。(这里大部分篇幅都用来介绍了生命性信息在thematic加工里的研究,这里就跳过了,见原文)

当前研究 ¶

在本研究中,作者考察了生命性在汉语量词-名词组合加工中的作用。在汉语这种量词语言中,量词根据名词的语义特征,例如生命性、形状、长度等对名词所指的对象进行概念性的分类。当名词被计数或者用于指示结构时,必须要使用量词,也就是说名词不能直接被数词或者指示词修饰。 在语言学理论中,关于量词到底是功能成分还是语义成分,一直都是有争议的,前者认为,汉语是没有冠词/限定词的语言,因此汉语中的量词就承担着其它语言中冠词/限定词的一些功能,包括指示功能。而相反,后者认为,量词是表示名词语义类别的实义语素,而非功能语素,这些两次对名词的范围施加了选择限制,能够帮助消除词义歧义,换句话说,Wu&Bodomo(2009)指出,意义是量词的定义属性之一。 汉语里有数百个量词,一些量词只能和无生命的东西使用,例如“辆”、“本”,而有的量词既可以和无生命的搭配,也可以和有生命的搭配,例如“一条金鱼、一条裤子”,此外,可用于有生命物体的量词大约10个,远远少于可用于无生命的物体的量词数量。 尽管量词研究比较多,但很少有研究考察在线句子理解过程中,量词-名词是如何被加工的。Zhou(2010)的研究证明,在量词-名词组合的加工过程中,量词所包含的语义信息被快速使用,例如他们发现“一张长椅”和“一台长椅”相比,一台长椅中引起的N400的负性更大,且在300-500ms内分布较广,随后是较晚的550-800ms的分布于大脑额叶的负性,这里的N400被解释为了名词与其量词之间的语义整合,而PNP则被解释为了语义的重新解释或者语义不一致造成的沉重的记忆负荷。但在Zhou的研究里,并没有特别处理生命性的一致,名词和它们的量词都是无生命的。 当前研究旨在考察汉语名词和量词在实时组合中是否立即使用了生命性信息。使用了三种类型的句子作为材料,如下图

2023-08-20-YXY-Fig1

,即三种条件:一致,不一致但有生性一致,不一致且有生性也不一致。由于有生命性的量词十分少,所以材料里面都用的是明确的无生命性的量词。三个句子只是在宾语名词和句末形容词上不同,其他的地方都相同,而在两种不一致的条件下,宾语名词是无生命的情况下,则是有生性一致的条件,宾语名词有生命的情况下,则是有生性不一致的情况。 为什么要采用这种符合语法但不规范的结构?是因为要把数词-量词作为关键词而不是宾语名词。如果采用标准结构,比如“赵庆丰看见一辆黑色的汽车”,在这种情况下就必须使用宾语名词作为关键词,在这种情况下,为了避免有生命和无生命的名词之间的词汇差异对ERP的影响,人们将不得不操纵量词的生命性,但如上面所说的,有生命性的量词大约只有5个,材料设计就很困难(所以主要是因为材料设计和避免名词影响才用这种顺序)。 作者的预期:1. 与一致条件相比,在两个不一致的条件下量词的N400幅度会更大,这种N400将会支持汉语量词是语义元素的语言学假设,能够对名词的范围施加选择限制。2. 如果在量词-名称组合的语义加工过程中立即使用了生命性的信息,那么与不一致、生命性一致的条件相比,在不一致、生命性也不一致的条件下,量词引起的N400的幅度会更大,之所以做出这样的预测,是因为已经充分证明了N400波幅对不同程度的语义关系高度敏感(之前有的研究也用动词做过类似的,一致:雇佣保镖,不一致但大多特征一致:雇佣婴儿,不一致但大多特征也不一致:雇佣电线/雇佣母鸡,此时就会发现,雇佣母鸡N400>雇佣婴儿,虽然两者N400都比雇佣保镖要大)。因此,认为会快速评估名词和它们的量词之间生命性是否一致从而产生N400也是合理的。而如果生命性信息仅限于用于量词-名词组合的后期阶段,则会出现较晚的ERP相应,而不是N400。

  1. 被试 被试30个汉语母语者,平均年龄22岁,右撇子。
  2. 材料及规范化措施 关键材料由120个三组汉语句子组成(即关键句总共360个),具体句子见上图。使用拉丁方分配到三个试验表中。同时为了平衡正确和错误句子的数量,抵消关键项目中使用的句子结构,还加了280个filler混在一起,其中120个filler是主谓宾结构(这里面有80句不一致的情况),其他还有40个正确的主谓句子和120个与关键项目具有相同结构的句子,filler的设置见原文。总共使用了59个量词,其中大部分来自于Gao & Malt(2009)开发的量词列表(这个可以借鉴)。材料中没有使用摸棱两可的量词,例如“条”,既可以用于有生命的,也可以用于无生命的物体。句末的形容词也总是和宾语名词是一致的,并且词频、笔画数量等都是匹配的。而句首的名词的词频和笔画在三种条件下也进行了方差分析,其中词频没有差异,但是笔画却有差异,但这里作者认为不是问题,因为句首名词是关键词前的第三个片段。 作者让30个汉语母语者分组评估每个句子的接受程度,7分制(值得借鉴)。使用拉丁方将120个三组句子分配到三个试验列表当中去,每个列表中120个项目以伪随机的形式呈现,最多连续进行三次相同条件的试验。对于每个列表都形成了一个相反顺序的版本,以进一步地抵消顺序效应。每个被试只做六个列表中的一个就可以了。ANOVA及事后分析表明,一致条件比两种不一致条件更容易接受(这也是在预期内的,但这不就会造成一定的影响吗),同时,有生性也不匹配的条件比有生性匹配的条件的句子更不容易被接受。(不过由于是非规范的句子结构,即使是里面完全合法的句子,它的可接受性得分也不太高)而对于两种不一致条件下接受度分数也不一样,作者给出了两种可能的解释:1. 与”不一致但生命性匹配的条件“相比,”不一致且生命性也不匹配的条件“下的量词与宾语名词更不协调。2. 对于”不一致但生命性匹配的条件“来说,主语和宾语名词分别是有生命的和没生命的名词,而相反,对于”不一致但生命性不匹配的条件“来说,主语和宾语都是有生命的,导致了句子更不可接受(听起来这两种解释并没有什么大区别)因此对360个句子里面出现的所有名词和量词对进行含义一致性的判断,也是由汉语母语者来完成,(这个就和前面的句子合理性的得分不一样了,那为什么不直接做这个呢,不就不用收集前面那个的份了),同时这里面也是加了filler的,这个也有加filler的必要吗??。这个结果显示,量词在”一致“的条件下,比在”不一致“的条件下得分更高,此外,”不一致但生命性匹配“的条件比”不一致且生命性也不匹配“的条件分数要高,这里就算是有一个分级效应了,说明被试的评分对名词和量词之间是否存在生命性匹配很敏感。
  3. 流程 每轮都先是800ms的十字,随后是500ms的空白,每个词或者短语出现400ms,同时还有个100ms的间隔。在句子最后一部分呈现完了之后有800ms的空白,随后是一串问号,提示被试来判断每个句子的可接受程度,就YES/NO按键即可。 4.EEG记录和数据分析 62个电极,参考左乳突,同时也有电极记录被试眼球的动作。量词处的ERP按照不同被试、不同条件和不同电极部位分别计算。分析基于1200ms的时期,即量词呈现前200ms到量词出现后1000ms之间,以量词开始前200ms作为基线。在视觉检查和早期研究的基础上选择了两个时间窗口:N400效应:300ms—550ms,以及可能存在的P600效应:600—1000ms, 所有的统计分析都是在所选时间窗口内的平均振幅进行的,分别分析中线和侧线的电极。从62个电极中,首先选择了最常报道的中线电极Fz、Cz和Pz,中线的全能方差分析包括了两个被试内因素:电极(Fz、Cz、Pz)和条件(一致、不一致但生命性一致、不一致且生命性也不一致)。为了涵盖左右和前后维度的分布差异,选择了36个横向电极,并通过交叉半球(左/右)和区域(前/中/后)形成了六个ROI,每个区域有6个电极,类似于之前的一些研究。横向电极的全能方差分析就包括三个被试内因素:半球、区域和条件。(所以也就是两种方差分析,一种是中线的,一种是侧边的,只是侧边的分的更加具体,分了六个ROI同时也要研究两个半球)只有当包含了条件不同的影响时才会报告,也只有当ANOVA显示条件不同带来的效应是显著的时候才会进行事后比较。

结果和讨论 ¶

  1. 行为学数据:与预期一样,和两种不一致的句子相比,一致句子在句法和语义上都被更频繁地判断为可接受,产生了条件的主效应(不过由于采用的非规范的结构,即使是一致的句子,在评分上也存在很大的个体差异)。同时,为了检查被试是否认真阅读句子,计算了120个正确/不正确的filler的可接受性判断的平均准确性,这些填充句是规范的结构主谓宾,所以正确回答就是正确的句子为可接受,不正确的就是不可接受,平均准确率94%,表明被试认真阅读了句子。
  2. ERP数据:

    2023-08-20-YXY-Fig1

    如上图所示,与一致条件相比,两种不一致条件都引起了更大的负性,在300-550ms的时间窗口内分布广泛,而两种不一致的条件之间似乎没有差异,此外,目测观察,在600-1000ms没有非常明显的效应。对这两个时间窗口的平均振幅进行了方差分析,对观察结果进行统计学验证。 300-550ms:全局ANOVA揭示了不同的条件在中线以及侧边电极上的主效应。事后分析显示,与一致条件相比,两种不一致条件的负性更大,两种不一致条件之间没有差异。同时为了确认这种300-550ms的ERP效应是否是被试受到了这种非规范化的结构的影响,将被试分为了2组,每组15个人,主要根据的就是之前做的那个可接受度的百分比来分的组,大概就是一个组对非规范结构的接受度更高,一个较低。这时候对可接受百分比进行方差分析就显示出了条件×组别的交互作用,因为在接受组内,不同条件的影响大于“不接受的组”内的影响。此外,与接受组的不一致、生命性不匹配的条件相比,不一致但生命性匹配条件的百分比略高,但不接受组中,两种不一致条件之间没有显著差异。 然后分别来看这两个组的ERP,目测检查,对于“可接受组”来说,300-550ms的时间窗口内,与一致条件相比,两种不一致条件下都存在较大的负性,分布较广,而在两个不一致条件之间没有N400幅度差异。而相反,对于“不可接受组”来说,与一致条件相比,不一致且生命性也不一致的条件下,N400幅度明显更大,但是不一致但生命性一致的条件却没有明显差别,对这些目测结果进行了统计学验证。ANOVA显示,条件和组别的交互作用在侧边电极显著,在中线电极几乎达到显著水平。对每一组单独地分析,显示,两组地中线和侧边电极都有效应。可接受组地事后比较显示,两组不一致条件下,中线和侧边地N400均大于一致条件下地,且两种不一致条件之间没有差异。相反,对于不接受组,在中线和侧边,与一致条件相比,不一致且有生性不匹配条件引发了更大地负性,但不一致有生性一致的条件却没有,此外,在中线和侧边电极处,不一致且生命性不匹配条件比不一致生命性匹配的条件略负。 600-1000ms:全局的ANOVA显示出了条件×电极以及条件×区域的交互作用,但是对每个中线电极或者侧边的区域的单独分析并没有揭示条件不同的任何可靠效应。对于可接受的组,在600-1000ms内,与一致条件相比,不一致条件下的前部的负性更大,而不一致且生命性不匹配的条件下后部的正性更大(P600),而相反,对于“不可接受组”,在较晚的时间窗口没有明显的效应。同样的,用方差分析验证目测检查,结果显示了在中线上,条件×电极×组别的交互作用,在侧边电极上,显示了条件×区域×组别的交互作用。随后,在中线部位对每个电极(中线就只有三个电极)进行了单独分析,揭示了可接受组在Fz电极下条件的主效应。而在侧边区域,仅限于每个区域和每个组别的单独分析显示,可接受组的前部和后部电极上条件的效应。事后多重比较表明,可接受组在不一致的条件下前部负性较大,而不协调生命性也不匹配的条件下侧边-后部正性较大(P600),此外对于可接受组,在后外侧部,不一致且生命性也不匹配的情况也略高于不一致但生命性匹配的情况。但为了确定发生于生命性不匹配条件的600-1000ms的正性是否确实是由量词引起的P600,而不是由即将到来的形容词引起的早期ERP效应(因为每个单词就呈现500ms,太短了有点),作者还分析了形容词引起的ERP.就看形容词出现后100-500ms,这里就对应量词出现后600-1000ms的时间间隔(为什么能这么比????),结果显示出了中线部位的条件×电极的交互作用,以及侧边区域的条件×区域的交互作用。在中线部位,仅限于每个电极的单独分析揭示了Cz和Pz电极上条件的效应。而在侧边部位,单独分析显示中部和后部位置条件的效应。事后比较表明,与一致条件相比,两种不一致条件的正性更大,由于形容词和宾语名词是一致的,所以较大的正性可能反应的确实是异常量词引发的更多关注。更重要的,两种不一致条件下的ERP并没有差别,因此量词分析显示的600-1000ms的正性(不一致且生命性不匹配的条件下独有的)不能用形容词引发的早期ERP效应来解释,相反它必须包含由量词引发的N600。(不太理解这个部分,为甚么不让每个词多呈现一些时间?)

讨论 ¶

本研究的目标是调查在汉语名词及其量词的实时语义组合过程种是否立即使用了生命性信息。一共三种条件。对所有被试的数据分析表明,与一致的量词相比,不一致的量词引发了更大的N400,和之前正常顺序的研究的结果类似。更重要的是,将“不一致但生命性一致”条件与“不一致且生命性也不一致“条件比较,并没有发现N400的幅度的不同。 考虑到关键句采用非规范的结构,并且条件的效果可能受到被试是否接受这种非规范结构的调节,作者将被试分为接受组和不接受组进行分析。结果发现,在N400和600-1000ms的时间窗口内,条件间确实受到了组别的影响,这表明被试是否接受非规范化的结构不仅仅是个体差异问题。对于接受组来说,两种类型的不一致量词都比一致量词引发了更大的N400,反应了语义整合的困难或是对可接受判断产生重要影响的语义不可信,更重要的是,生命性额外不匹配并没有导致N400幅度的增加,这与分析所有被试的数据时观察到的结果相同,表明目标名词和量词之间的语义整合过程中没有使用生命性信息,无论不接受组是否被排除在外。此外,接受组在观察到N400之后,在不一致且生命性不匹配的条件下还观察到了P600,但是在不一致和生命性匹配的条件下没有,那么P600是否只是反映了生命性不匹配的条件下句子的不可接受性?但作者认为这种说法不太可能,因为与一致条件相比,不一致但生命性一致的条件也不可接受,但是这种情况就没有观察到P600。(作者对于这种P600的解释很复杂,我有点没看懂,这里略过了,见原文)有的人可能会认为P600反应了生命性违反自身,但是在另一个只使用单词的研究中,并没有观察到生命性违反对P600的影响。 由于N400反应被认为是反映了意义加工,那么本研究就为支持汉语量词是语义元素提供了证据,它能够对名词的范围施加选择限制。 对于不接受组,在不一致且生命性不一致的条件下的量词上观察到了N400效应,但是在不一致且生命性一致的条件下却没有观察到,尽管后者与一致条件在句子整体的可接受度评分上存在显著差异,但ERP似乎没有显著差异。在这种条件下,行为学和ERP结果之间的差异可能反映了一种可能性,即,当读到量词时,名词和量词之间更具体或者更集中的语义信息的整合并没有出现,这就导致了N400效应的缺失,它在整个句子读完之后确实会发生。这种缺乏实时的语义整合的情况可能是由于有限的资源被困难的语序加工完全占有了,或者是由于困难甚至是失败的语序过程可能在时间上阻碍特定语义信息的整合。无论是哪种方式,当词序线索似乎不起作用时,例如在非规范化结构不可接受的情况下,生命性线索就变得突出了,导致N400效应反映了名词及其量词之间生命性信息的整合。 总之,作者的结果表明,在名词和量词的语义整合的过程中,使用了更具体或是更集中语义信息,例如汽车、台灯这种人工名词的功能性语义特征,而生命性作为一个更广泛的语义信息的维度,在这个加工阶段没有使用,但是在P600反映的较晚的分析中使用(感觉根据这个研究结果,并不太能非常支持这个结论)。 之前的一个研究已经证明了动词及其宾语在生命性方面不匹配会引起额外的N400,表明在动词及其宾语在语义整合的过程中,快速使用了更广泛的语义信息,比如生命性。此外,一些研究表明,在N400时间窗口内,在主题角色分配中可以快速地使用生命性信息。(所以到底什么是thematic role assignments,还得继续看文献)而量词-名词组合中没有涉及到thematic加工,这可能就是一个相关的特性。正如文章开头提到的,对于thematic加工,名词的生命性和名词所扮演的主题角色之间存在着典型的联系,这种联系可能对于立即使用生命性信息至关重要,从而产生N400,用于主题加工(例如谁对谁做什么),然而对于量词-名词的组合,不存在这样的联系,这可能是为什么生命性信息没有被很快地使用的原因。如果上面的解释是正确的,那么在不涉及主题处理的其他类型的组合(比如,形容词-名词组合)中,也不应该出现生命性不匹配引起的N400效应,此外还不清楚本研究的结果是否可以推广到规范语序的句子中,显然需要进一步的研究,可能需要使用其他的量词语言。 本研究的实验材料都是选的动物或者是人工制品,但是和动物相比,人类的层次更高,尽管两者都是有生命的,所以可能还需要未来的研究来研究一下人类和人工制品之间是否可以观察到相同的结果。本实验目前可以得出的结论是,动物和人工每次及其量词中编码的生命性信息通常不会很快使用,比如在N400时间窗口内不会使用,相反,会在较晚的时候使用,导致P600。这个结论对于理解/限制语义线索对汉语句子的理解的重要性也具有重要意义,特别是汉语中,生命性是句子理解的一个相对较强的线索。