一张咖啡:英语和汉语量词-名词短语加工的ERP研究



论文信息 ¶

Qian, Z., & Garnsey, S. M. (2016). A sheet of coffee: an event-related brain potential study of the processing of classifier-noun sequences in English and Mandarin. Language, Cognition and Neuroscience, 31(6), 761-784. doi:10.1080/23273798.2016.1153116

论文原文 ¶

关键词 ¶

句子理解;预期加工;量词;N400;持续的额叶负性

摘要 ¶

通过比较量词-名词匹配(a sheet of paper 一张纸)和量词-名词不匹配(a sheet of coffee一张咖啡)在句子中的ERP,在英语和普通话中分别考察了对量词-名词短语的理解。目的1:确定哪些ERP成分对这种不匹配敏感,以此作为潜在的组合加工的本质的线索。目的2:检查量词对随后出现的名词的预期的约束强度。两种语言的结果是相似的,由于这两种语言在量词使用方面存在显著差异,因此这个结果这很有意义。在两种语言中,名词在不匹配的量-名组合中产生了更大的N400,表明组合加工主要是语义的,一般量词在量词出现后的200ms开始比特殊量词引起了更大的持续的额叶负性,反映了约束强度对即将到来的名词的预期的影响。

引言 ¶

英语中,量词主要是在不可数名词被量化时用来指定计数单位的词(例如sheet of paper、strand of hair)。而普通话中,每当指定或量化任何名词时(包括可数名词),都需要用到量词,和英语一样,汉语量词必须与它们修饰的名词的某些方面的意义一致,例如“一条金鱼”,“条”形容长而柔软,可弯曲的东西,使用其他不合适的量词或者不使用量词在汉语中都是不符合语法的。 关于普通话和其他类似语言中量词的本质以及量词是如如何加工的,仍存在争论。一些语言学家认为:量词是为它们能够修饰的名词设置选择限制的语义单位,量词有时还可以赋予名词短语额外的意义(例如,一块猪肉和一片猪肉)。而另外一些语言学家认为,这些语言中的量词最适合作为句法实体,因为它们在句法上对所有量化和指定的名词都是强制性的,汉语中量词的功能之一就是部分地弥补数字标记词法的缺失。当名词被量化时,量化词本身可以提供数量信息,而对于特指的名词来说,只有量词才能提供数量信息,例如,“这本书”相较于“书”,提供了名词是单数的信息。同时,可数名词用可数量词,不可数名词用不可数量词,这也支持了量词是语法实体。(一个说法认为量词是语义的,一个认为是语法的) 量词如何被加工的一个重要因素是量词在不同语言中的词汇地位。英语中的量词通常是可以独立使用的名词,相比之下,普通话量词通常是绑定语素,只能与数词或者指示限定词结合使用,很少单独做名词。因此,将量词和名词之间的匹配的要求视为普通话中的一种一致,就像性别标记语言中的性别一致一样,而不是更一般的语义一致(例如,使用与与其修饰的名词相适应的形容词),可能会更好,而在普通话中句子中的词之间的一致(agreement)是一种罕见的现象,这可能是普通话中唯一一种例子。 N400成分的幅度,对在上下文中加工单词的含义有多容易很敏感,其幅度取决于提取的信息量以及将其与上下文整合的难易程度。相反,当句子中需要达成一致的单词没能做到时,会引起P600的上升,表示存在问题,P600对句子的形式和结构加工的各个方面都很敏感(P600在最近讨论更多,情况更加复杂)。第三类对语言加工敏感的ERP成分通常被称为额叶负性,它们有时先于P600,有时单独出现,有时左半球更明显,还有一种额叶负性在开始和持续时间上与N400类似,但更多地分布在头皮前部,许多现象都可以引起额叶负性,语言研究外的实验也引起了这种负性。最近对额叶负性的解释十分复杂,而且在母语和非母语人群中,同一刺激的ERP可能存在个体差异。 鉴于目前的ERP成分的了解,似乎很有可能一个与英语量词不匹配的名词会引起N400幅度的增加,就像一个名词与前面的形容词不匹配一样。而汉语的量词则不一定了,如果汉语中量词-名词的加工方式类似于形容词-名词序列,那么不匹配时N400可能更大,然而如果是像其他语言中的形态句法一致的话,那么P600可能是最有可能出现的成分 量词的一个潜在的重要属性就是,它们在多大程度上限制了后面的名词,有的量词只能和极少数名词连用,而有的可以和多种类型名词连用,例如“盏”几乎只与灯一起使用,而“颗”可以和任何小的、实心的东西使用,所以像“盏”这种特定量词使得后面的名词比像“颗”这样的一般量词更容易预测。 目前,越来越多的证据支持对某类信息的预测(基本就是阅读过的prenominal文献,包括在高度限制的语境下的a/an、性别一致等),在所有这类研究中,可预测单词的属性在该单词出现之前影响反应,表明这些属性在预测单词出现之前被预激活。 另一个对视觉刺激的可预测性敏感的ERP成分是P2,它是刺激开始后200-300ms的额叶分布的正性刺激。最近的一些研究发现P2波幅受短语或句子语境中单词的可预测性的影响,然而随后的研究发现真正重要的可能是一个词之前的语境有多大的限制,而不是最后一个词是不是最受预测的。因此,一个词的P2的反应幅度似乎反应了之前的强约束语境所产生的某种状态,而不是该词是否与语境所提供的预测相匹配。(这样可以排除出本研究) 量词可以提供一种通过单个单词操纵语境约束强度的方法。在此之前,似乎还没有英语量词-名词整合的研究,所以这里的第一步就是做这样的研究。在英语中,最可能的结果就是当名词和前面的量词不匹配时,N400幅度增加,量词提供的限制的强度也可能会影响对名词的N400和/或P2反应的幅度。最后,量词本身的某些ERP反应可能也会反映出它们在多大程度上限制了它们后面的名词。

研究1 ¶

  1. 被试:30个英语母语者,4名被试由于过度眨眼或运动伪影而被排除在数据分析之外。
  2. 材料和设计:找英语母语者来尽可能地多地填与量词匹配的名词(共87个量词),选出来20个一般量词(平均与6.4个名词搭配),20个特定量词(平均2.2个名词),两者平均长度和出现频率没有显著差异(出现频率差异较大,但一般量词本来就使用更多,这一点貌似无法匹配)。40个量词中每个量词都被用来创建三个不同的句子对,以便有足够的实验项目(120对),在句子对中,一个句子量词与名词匹配,一个句子不匹配,三对句子中,每一对都有不同的关键名词(前面的规范化研究中被试填写的数量最多的前三)。 每个被试看每个量词三次,两次量-名匹配的条件,一次不匹配的条件,或者反之。关键名词的平均长度和出现频率被匹配,每个句子对中名词都是一样的,只是量词不一样。 因此总共就是2(匹配/不匹配)×2(一般量词/特定量词)四种条件。如果量词在匹配条件下是一般量词,那么不匹配条件下也要用一般量词,特定量词同理。句子分布在两个列表上,这样被试只能看到每个条目对中的一个成员,并且看到每个条件中的条目数量相等(30)。 虽然避免重复任何关键名词是最理想的,但是这里并没有进行控制,名词在不同项目中可以重复,因为使用与匹配条件中的每个量词最匹配的名词在该实验中更加重要。 还增加了80个干扰项,总共就是200个试验。干扰项包含4种,各20个,1. 不含任何量词的句子 2. 在不同句子位置使用量词和匹配名词的句子 3.使用潜在的量词做名词的句子 4. 量词与名词不匹配的句子,其中是名词与句子剩余部分不匹配,而非量词。干扰项的目的是防止被试预期THERE+BE句型总是出现量词,量词可能出现的位置等,所有句子后面都有理解问题。
  3. 实验程序:屏幕中央一个固定点,500ms,句子以每个词500ms呈现(300ms文本,200ms空白屏幕),每句话之后,按键反馈回答理解问题。注意每个block都是先呈现的干扰项。
  4. EEG记录和数据分析:27个电极,分为中线和侧线。用右眼上下及双眼外侧电极检测眨眼和眼球运动。提取从量词开始前的100ms开始到开始后的2100ms,捕捉对量词、of、关键名词的反应。 主要使用两者不同的基线分析ERP波形:1. 量词开始前的100ms 2. 名词开始前的100ms。第一个基线允许检查量词触发的条件之间的差异,第二个基线允许检查由名词本身引发的差异。计算每个被试在每个条件下每个通道在三个时间窗口的平均幅度,以捕捉P2、N400、P600等ERP成分,P2(230-280ms), N400(350-550ms),P600(600-900ms),使用重复测量方差分析。一组分析包含所有电极、一组只包含中线电极,所有电极的方差分析包含四个被试内部因素:2量词名词匹配(匹配、不匹配)、2量词的特定性(一般、特定)、3电极的前后性(额叶、中央、后方)、3电极位置的偏侧性(左、中、右),而中线电极的分析就没有包含这个偏侧性。同时,划分了6个ROI,每个ROI包括4个电极:左前、右前、左中、右中、左后、右后。ROI的分析包含两个因素:匹配/不匹配、一般量词/特定量词。
  5. 结果: 行为学数据:理解问题正确率在89%以上,平均95%,并且不受量词类型、是否与名词匹配的影响,也不存在两者的交互作用。 ERP结果:所有分析都没有显示电极位置偏侧性(左、中、右)的影响,所以所有结果都没有提到这个因素。 量词部分:视觉检测显示,从量词的P2时间窗口(230-280ms)开始,一直持续到整个时段,一般量词比特定量词产生更多持续的额叶负波,统计分析证实了这一结果。这就导致了在P2时段内,总体分析和中线分析中都有显著的量词特定性×半球前后的交互作用,以及在中线分析中略显著的量词特定性的主效应(p=.051)。在N400时间窗口中,这种一般量词的较大的额叶负性仍持续存在(交互作用也存在),然而这种影响比早期的P2时间窗要弱一点。同时,与预期一致,在量词的任何时间窗口都没有涉及量-名匹配的影响,因为名词还没有出现。 名词部分:1. 以量词前100ms为基线:一般量词在额叶触发的负性在对名词的整个反应中持续存在,尽管它随着时间的推移而减弱,在三个测量窗口中,在量词的总体分析中可靠的特定性×半球前后的交互作用,在名词处仅仅是微小的,这些微小的交互作用是因为特定性效应主要局限在额叶区域。总之,一般量词比特定量词触发了更大的额叶负性,这种差异在名词的整个时间窗口持续存在,当使用量词前作为基线时,在名词的任何时间窗口,量词-名词的匹配都没有可靠的效应,尽管在总体分析中,在N400窗口有微小的特定性×匹配与否的交互作用。
  6. 以名词前100ms为基线:为了将名词触发的效应和始于量词的持续效应区分开来,使用名词前100ms对波形进行了重新基线化,这时就出现了清晰的量词-名词匹配效应。如下面表:

    2023-07-30-YXY-Fig1

    视觉检查显示,与匹配条件相比,不匹配的条件下,波形在名词的P2时间窗口开始并持续到其余时间更负,在N400窗口期间差异最大。总体和中线方法分析都显示了N400时间窗口中量词-名词匹配的可靠的主要效应,和P2及P600中可靠/微小的效应。当波形在名词前被基线化时,在任何时间窗口,量词的特定/一般都不在有任何的主要影响。然而,在总体分析中,在N400时间窗口显示了量词的特定性×匹配与否的交互作用,这个也见上面那个表。

实验1的讨论 ¶

实验1调查了英语句子中量词-名词序列的加工。和预期一样,对于与前面的量词不匹配的名词会有较大的N400,此外,名词的N400对前面的量词的特定/一般很敏感,当量词是特定量词时,表现出更大的不匹配效应,这与其他研究一致,这些研究表明,当上下文更具有约束性时,不符合其句子上下文的词会引发更大的N400。同时也没有P600,所以英语中句子的量词-名词整合似乎和句子中单词的一般组合的语义加工没什么不同。 此外,根据早期研究,研究者预测名词的P2幅度可能会受到前面量词的特定/一般的影响,相反,观察到了P2时段内由一般量词引发的持续的额叶负性(这不就是和P2类似?)。但为什么是在量词处观察到这种现象呢?量词是提供语境限制的词而不是预测的词,P2一般出现在预测的单词上,而非提供约束的单词上。然而最近两项研究也报告了P2时间段内开始的高度约束环境对约束刺激本身的持续影响,这就和当前的十分相似。在chou等人的普通话研究结果和当前的英语研究结果都显示出了约束较少的一般量词的持续额叶负性,而这些一般量词能够导致对它们后面可能出现的内容的更多不确定性。 还有个研究发现,在不可预测的随机字母序列(如 vdrgE)中有额叶负性,相较于可预测的字母序列(abcdE),他们发现,从P2时间窗开始,对他们随机序列中的第二个字母做出反应的额叶负波更持久,这是一个刺激信号,表明其余字母将会是不可预测的。然而,与chou以及我们的研究结果不同的是,反应的持续部分在脑后而不是额叶最大。*这三个研究都有一个共同点:那就是在P2时间窗口里,没有对随后的词提供太多的限制的刺激会引起更大的额叶负性,这种差异至少会持续到对下一个刺激的反应开始时。*这里也许就可以用SPN来解释,即SPN被发现,当第一个刺激引起更大的不确定性,并且随后的刺激有望解决这种不确定性方面提供信息时,SPN是最大的,并且SPN一般在额叶最大,这就与这两个研究以及本研究一致。 但还有一种可能,即本研究的P2实质上是受词频的影响,已有研究发现高频词引起较小的P2,因此可能会有影响,但其他研究中的词频效应并没有像这里的一样持续存在,所以应该也不太可能用这个来解释。 在英语中,量词-名词不匹配影响N400,而非P600,这是完全可以预料的,因为英语量词本身就是具有实质意义的名词,除了用作量词,还有许多其他用途。但普通话中的量词很多不是独立的单词,更具有强制性,在普通话中整合量词和名词,可能更像是在代词和名词之间整合数字和性别等。这种违反通常会对P600而非N400产生影响。因此,普通话中,量词和名词之间的不一致可能会引起P600,而不是N400,或者说除了N400外还有P600。同时,实验1中显示的这种额叶负性在普通话中是不是也有?如果这种ERP成分确实是关于一般量词和特定量词在多大程度上限制了它们后面跟的东西,那么普通话的差异可能比英语中的差异更大。

实验2 ¶

以前关于汉语和日语量词的ERP的研究结果很不一致,即哪些ERP成分对量词-名词整合更敏感。在一个日语和一个汉语的研究中都是呈现量词,再呈现名词,都不在句子内,两个研究都发现与量词不匹配的名词引发了N400,而没有P600,但汉语实验中在N400时间内还发现了对低限制量词的持续额叶负性,以及量词限制强度和量词匹配之间的交互作用(和实验1里发现的相似)。但是上述只是在词对里的研究,没有把量词-名词放在句子里,结果可能不同,所以有必要做一个这种。在日语中Mueller et al. (2005)发现名词与其前面的量词不匹配时既有LAN,也有轻微的P600,有人认为这里的LAN效应是由于当不匹配暗示可能存在关系从句时触发的加工困难导致的(一只妈妈买来的苹果)即,认为在量词之后立即遇到不匹配的名词可以作为关系从句即将到来的提示,从而增加处理负荷并导致LAN效应(普通话的相关研究也是类似的说法,额叶负性,“可能反映了解决不匹配带来的冲突的需要和即将到来的关系从句的可能性导致的处理负荷增加的结合”)。 总体来看,以往关于日语和汉语量词-名词整合研究的ERP发现,名词和量词不匹配时会产生不同的影响,包括N400、P600、额叶负性,其中N400的影响为主。结果表明,量词-名词不一致不同于形态句法数字/性别不一致,但也和形容词-名词的匹配不同,因为这个预计只会影响N400。在实验2使用相同的设计和任务来考察汉语句子中的量词-名词整合。

被试:33普通话母语者,右利手,都有美国居住经历6-12个月 材料:和实验1差不多,21个一般量词,21个特定量词,每个量词分别用于三个不同的句子集合,以产生126个实验项目集,每个项目集包含三个句子版本(量词-名词匹配、不匹配、无量词),具体的细节见实验1。同时也要对这些量词进行标准化任务,让汉语母语者尽可能多地写出与量词匹配的名词,被试相出的与一般量词搭配的名词(平均值3.7)多于特定量词(平均值2.1),平均字长、频率等和实验1一样。有三类干扰项:1. 匹配的量词-名词短语出现在不同的句子位置 2. 不匹配的量词-名词短语出现在不同句子位置 3. 语法上无量词的句子 程序:与实验1程序差不多,除了呈现速度不同(350ms文本+100ms空白)、数字和量词是一起呈现的、英语中强制性修饰助词of位于量词和名词之间,而汉语中的de位于量词之前。 EEG记录和数据分析:除了时间段不一样外(因为呈现速度变了),其他所有的东西都和实验1相同。P2的时间段变成了220ms-270ms,因为总体平均波形中,峰值的时间有变。 结果:行为学数据:和英语差不多,没什么问题 ERP结果:

2023-07-30-YXY-Fig2

视觉检查波形显示,模式和实验1很像,一般量词在额叶触发更多的负性,从P2的时间窗口开始,一直持续到了整个时间段,而不匹配的名称也会触发更大的N400反应。 数词+量词部分:在这个部分的P2时段,所有电极上的方差分析都显示出量词特定性的主效应,受特定性×半球前后的可靠交互作用以及微弱的特定性×半球前后×半球左右的交互作用所调制。这些交互作用是因为在额区使用一般量词的项目比使用特定量词的项目更消极。中线电极上的分析也是类似的结果。这个额叶负性还持续了整个N400的时间窗口,特定性×半球前后的交互作用、特定性×半球前后×半球左右的交互作用都显著。 名词部分:和实验1一样,也是两个baseline分析。首先是以量词前100ms为基线,前面提到的额叶负性一直存在。具体的各个交互作用及显著性见上面的表,这里就不描述了,在P600时段内,匹配效应在中体分析中被降低到微弱,并且出现了匹配与否×半球前后的交互效应。然后是以名词前100ms为基线,结果也看上图,但是在总体和中线电极都没有N400,但显示了N400的典型中央-顶叶分布。在名词的N400窗口也不存在特定性×匹配与否的交互作用,这与实验1中发现的可靠交互作用不同。 这里的P2开始的额叶负性、N400都和实验1一致,但是没有发现P600,这些结果表明,和实验1中的英语句子一样,量词-名词整合主要是汉语句子中的一个语义的过程(而不是语法的)

讨论 ¶

与作者最初的假设相反,作者的结果显示普通话和英语在量词-名词整合上十分相似。在这两种语言中,与前面量词不匹配的名词都会导致N400而非P600的增加,这表明它们的加工都是语义的(但P600不是不仅是语法的吗,语义N400,语法P600太绝对了?),而且量词-名词的整合过程与解释句子时整合语义的一般过程没有本质上的区别。 在这两个实验中,就只有N400时间段内的量词特定性×匹配与否的交互效应是不一致的,这是否是两种语言间的差异仍不清楚。实验2中的N400效应要比实验1的更小一点,实验1中的N400效应在头皮分布更广,但可能只是效应大小不同的结果。有许多因素可能导致N400效应大小不同,第一个因素可能就是两个研究测试的不同的人,第二个原因可能是在不匹配的情况下,英语的违规情况总体上比普通话的更糟糕,所以N400更大(第一作者认为普通话中一般量词和特定量词之后的不匹配同样糟糕,而第二位作者认为英语中特定量词之后的不匹配情况更糟糕)。 还有个研究加入了预测外但合理的名词,从而显示出不同的模式,研究者是这样解释模式的:强约束量词提供对特定即将到来的名词(或者至少是高度相关的词)的特定预测,因此任何不是预测的名词(预测外的、预测外但合理的)都是同样糟糕的,引起同样大小的N400。相比之下,弱约束量词不能提供对任何特定名词的强预测,因此无论出现什么名词,都会根据它与量词的匹配程度进行评估,而不是根据它与预测的匹配程度进行评估,从而产生分级的N400。 需要注意的是以量词前100ms为基线的情况下,在名词的P2阶段显示出的差异并不是P2效应,因为该效应是从量词的P2时间开始时就有的,同时该影响十分持久,与一般的P2不一致。 名词处没有P2的原因可能是:句子都是在中间呈现的,这种影响几乎只在关键词出现在右视野时才被发现(听着感觉有点不对劲)。同时,提供的限制完全来自于一个单词(即量词,而不是整个句子),普通话中与名词间隔450ms,而英语中间隔1000ms(中间还有个of),而其他产生P2的研究中,语境的约束强度都说多个词之间建立的,所以也许当唯一的限制是单个词/语素提供的时候,就没有足够的时间来建立这种反应词汇预测的P2,还有其他的研究也显示了呈现时间的影响,也就是可能没有足够的时间。也有研究者使用单个单词提供了限制,发现当靠近右视野并以极慢的速度1000ms呈现时,发现了关键词的P2幅度(那这可能真和前面的“没有足够时间”的说法一致)。Chou et al.(2014)的那个研究有很多结果和该实验一致,包括这个额叶负性,但他们就将其解释为了P2,这显然不太合适。在Chou和本研究中,都观察到了对较小限制的一般量词的反应是持续的额叶负性,这些一般量词可能导致更多的关于即将到来的东西的不确定性。一种可能的解释就是这种波是SPN的一种类型。SPN在如下情况下被观察到:一个刺激在已知的间隔后出现另一个刺激,并且第一个刺激产生了第二个刺激将提供重要信息的预期(Brunia et al,2012),当第一个刺激引起更大的不确定性,并且随后的刺激有望解决这种不确定性时,SPN最大,这和Chou与本研究一致,因为被试知道量词后会有一定间隔出现一个词,并且可以确定它将是量词修饰的名词。 同时,已经发现高频词引起较小的P2波幅,而一般量词必然比特定量词高频,所以一般量词波幅更小,从而成了额叶负性,但是这种效应理应没这么持久,所以应该不能从这方面进行解释。 量词-名词不匹配对P600成分的影响不明显,说明量词和名词在汉语和英语的整合中主要是一个语义过程,与前人研究一致。在普通话中,观察到的N400十分小,这有点奇怪,但是,不匹配的名词与句子中的除量词外的其他东西都很匹配,因为不匹配的句子就是通过只替换量词形成的。同时,由于汉语被试找的都是住在美国6-12个月的,这可能就和汉语单语者有区别。

个人总结: ¶

  1. 英语汉语中量词-名词加工主要是语义的,而非语法的,因为是N400,而不是P600。2. 特定量词比一般量词更能唤起人们对它们后面可能跟随什么名词的预期,因为对一般量词有更大的持续额叶负性。3. 作者这里提出了一个有趣的预测,韩语和日语的量词都在名词之后,那么这样在量词的位置,被试就已经知道了修饰的名词,那么就没有这种一般量词引起的持续的额叶负性了,而当量词在名词前面时,量词位置还是会有的。(这个完全可以在设计的那个研究中验证呀,不用非得日语或者韩语吧),作者在这里也强调了语序的重要性,那么也许可以直接使用汉语,虽然不规范,但合乎语法。