语言理解中的词汇预测:荷兰语的一项复制研究



论文信息 ¶

Kochari, A. R., & Flecken, M. (2018). Lexical prediction in language comprehension: a replication study of grammatical gender effects in Dutch. Language, Cognition and Neuroscience, 34(2), 239-253. doi:10.1080/23273798.2018.1524500

论文原文 ¶

关键词 ¶

语言理解;词汇预测;语法的性;ERP;荷兰语

摘要 ¶

预测的语言过程中有一个重要的问题,那就是在名词前的材料中(例如冠词),预测效应能在多大程度上准确地被测量。作者重复了Otten和van Berkum的一个研究,选用了更大的样本量(N=58)。Otten等人报告了与句子中名词的可预测性相关的ERP调制,通过性别标记的荷兰语冠词测量的。本文研究者使用了和Otten等人近乎相同的材料、程序和数据分析过程。研究者没能重复出Otten等人的原始效应,但却观察到了和原始数据相一致的模式。文中讨论了导致结果不同的研究者的重复研究和原始研究之间的方法学差异。另外,文中还讨论了荷兰语的这一性别标记的determiners是否适合作为未来研究词汇项目的预激活的材料。

引言 ¶

在线句子理解过程中的词汇预测的进程,也就是即将到来的词的预激活,研究者已经使用多种不同的方法、材料等进行了研究。一些眼动研究表明人们能够自动地预测即将到来的东西。而使用EEG技术,人们分析特定的词的ERP,其中N400成分的幅度反映了给定语境下的特定单词的语义加工。根据N400不同的研究,需要注意到名词上的N400不一定是反映了实词的语义在出现之前就已经被预激活了(prediction的观点),相反,N400幅度的调制也可能反映当前实词与先前的语境信息整合比较容易。因此,这些研究没有提供预测加工的最强烈的窗口。 基于语境的词汇语义材料的预加工的有力证据来自于那些测量实词前的形式的ERP的研究(pre-nominal效应)。例如之前那个英语中不定冠词a/an的ERP研究,a/an完全是基于后一个词的首个音素,所以可以用来研究对后一个词的预测的程度(DeLong, Urbach, &Kutas)。但这个实验最近被批判成没有为词汇预测提供有力的证据:因为Nieuwland et al.(2018)没能够重复这个实验。有人认为冠词的音韵形式可能并不是一个研究名词的预激活的好的测试用例,因为它是与下一个词相联系的,而下一个词不一定是名词,例如an kite/an enormous kite。 还有的研究产生的名词材料的预激活的证据是从名词前冠词/形容词的性出发的。这些研究显示与预测一致/不一致的冠词/形容词有不同的ERP幅度,表明在冠词/形容词这个节点上,就已经检测到了预测不匹配。然而仔细观察这些研究,发现ERP潜伏期、正负性、头皮地形图方面的情况喜忧参半。 尽管许多研究表明了300-500ms的负效应,但准确的时间窗口不同,并且地形分布也有区别,甚至有的研究反映出了电压极性的不同(大概是P600这类?)如下图。

2023-07-23-YXY-Fig1

不同的测试用例、模式和材料使结果的比较变得复杂。例如,尚不清楚不同的神经特征是否反映了不同的潜在神经生成器,或者它们是否是由实验材料和设计的特定选择造成的。同时分析的时间窗口似乎大多是通过对数据的目测确定的,这意味着很有可能假阳性。尽管有这么多问题,但这些研究都报告了一些词汇预测的证据,显示语法上的性可能是未来继续探索词汇预测加工的实验用例。 但实际上,荷兰语中的冠词并不是只与性相对应的,例如通性冠词de也可以修饰复数的名词。这些特点使得性别标记的冠词并不是完全可靠的测量点,以研究指向具体对象的确定的单数名词的预激活。考虑到这一点,研究以前报道的语法性别效应是否稳健和可复制是非常重要的。 因此作者选择重复先前发表的使用荷兰语的性别标记冠词的预测研究之一,使用了Otten和van Berkum的改编材料,重点研究了高约束性、高完型填空句子中预期内和预期外性别的ERP调制。但并不是完全直接的复制,而是一种概念性的复制,因为在材料、设计和数据预处理方面存在一些差异。研究者收集的数据集最初显示出不确定的结果,并提交发表,根据评审建议,收集了更多参与者的数据。

研究方法 ¶

  1. 被试 18-35岁右利手荷兰语母语者,同时如果被试满足以下条件则要被排除:理解性问题的准确率低于75%(而原始实验中是没有设置理解性问题的)、由于脑电伪影导致超过50%的关键试验损失、在数据收集过程中记录的技术问题或被试明显不愿意参与(后几个标准都和原始试验相同)。 样本量31,没有进行power analysis,最初的结果既没有明确否定零假设、也没有明确的零发现,同行评审建议收集额外数据。通过power analysis,对于80%的power,需要总共58名被试。 最初实验是31名被试,根据上面的标准排除了4名被试,剩余27名被试。后续实验中又收集了31名被试的数据,因此共收集70被试,排除了12个。而原始实验被试更少,收集38个,排除7个。

  2. 材料和设计 被试阅读112个两句话的小故事以及9个其他的结构相似的故事。这些故事,第一句话建立了语境,第二句包含了目标限定词和关键名词,目标限定词和名词之间总是由2-5个形容词隔开。大部分材料都是从原始实验照搬的,也有少部分自己造的。也是每个句子有两种版本:与预期一致和与预期不一致,第一句都是一样的,只有第二句有两种版本:一是预期内的名词及其冠词,二是预期外的但是和上下文合理的名词及其冠词(必须是与预期名词性不同的名词)。 原始实验中还包括了一组中性句子,不产生任何的预测,但本实验中没有这个设置。原始实验是40个一致、40个不一致、80个中性句子,而本实验是56个一致、56个不一致,无中性句子,所以在本研究中有更多的故事导致每个被试的预测。 同时找了15人对句子进行了完型填空测验,预期名词的完型填空概率平均概率为0.79(SD=0.11 RANGE0.6-1.0),而预期外的名词的完型填空平均值为0.01(SD=0.04 RANGE0-0.13),两个概率与原始实验类似。 原始实验没有是或否的理解问题,而作者在这个实验里给25%的试次加了,好让被试集中注意力。

  3. 实验程序 依旧是视觉呈现,但原始实验选择全部逐词呈现,作者选择第二句逐词呈现,第一句不逐词呈现。先呈现2000ms十字,第一句整体呈现,按键继续,又呈现2000ms十字,接下来逐词呈现第二句,每个词的呈现时间取决于词的长短:187ms+30乘单词中的字母数量ms,而从冠词开始到名词按照固定速度358ms呈现。词间间隔400ms(较长的呈现时间会影响预测加工,但不会产生负面影响),分了四个block供休息。

  4. EEG记录和分析 27个头皮电极,10-20convention放置,4个EOG电极放在左右眼检测眨眼,2参考电极于乳突。*但原始实验是使用ICA更改眼球运动污染的数据,但作者这个实验是手动排除的受眼球运动污染的试验。*将电极分为了四个象限,左前6电极、右前6电极、左后5电极、右后5电极。

结果 ¶

被试理解问题正确率平均为88.3%,处理过程中被过滤掉的试验的平均比例为19.7%,原始实验为11%。

  1. 零假设显著性检验 重复原始实验报告的分析,作者以名词的预期性、大脑左右半球、大脑前后半球为因素,以冠词出现后的200-600ms时间窗口内的ERP波幅为因变量(与原始试验一致,该研究也排除了中线上的电极,因为它们不属于任何一个象限) 与原始实验的结果相反,作者并没有观察到名词预期性的显著主效应,p=0.13。因此,在所有象限中,两种情况下的ERP幅度没有差异。而名词预期性和大脑左右半球两个因素间的交互作用显示出不显著的影响p=0.026,略大于作者预先设定的α值。大脑前后半球有显著主效应,但该研究对此不感兴趣。
  2. 原始实验中预期效应的可检测性 没能发现名词预期性的主效应,作者思考,以原始研究的样本量,原始研究是否足够强大,能够可靠地检测到作者观察到的不同于零假设的效应。如果是,那么本研究效应大小与原始实验发现结论一致,但如果不是,那么作者观察到的影响与原始实验的结论是不相容的,因为据作者所观察到的,原始实验不足以得出这样的结论。根据研究者采用的标准,研究者得出结论:即使作者没有观察到显著的效应,但本实验的效应大小与原始实验的结果和结论是一致的(有点不太懂?为甚么根据置信区间就会得出这种的结论?)
  3. 贝叶斯分析 作者使用贝叶斯因子分析继续研究本实验观察到的效应究竟是属于零假设(在预期内和预期外的条件下,ERP没有差异,ie. 无N400)还是备择假设(在预期内和预期外条件下的ERP存在差异)。 由于没有现成的数据进行方差分析,所以计算了原始实验中预期效应的t值以及本试验中所有通道的预期内/外条件下的t值(原始实验中没包括中线通道,但本实验这里却包含了所有通道,因为作者对所有通道的潜在影响感兴趣)。 结果显示BF值为1.24,将两项研究的效应大小合并在一起,荟萃分析的BF=1.87,这些BF值既不支持零假设,也不支持备择假设(因为作者选用BF值高于3为标准)
  4. 目标名词位置的N400效应分析 对于名词,计算了目标名词开始后300-500ms的ERP波幅,和冠词一样,也将电极分为了四个象限,名词预期性、左右半球、前后半球作为预测因素进入统计分析。 这里观察到了显著的名词预期性的主效应,前后半球的主效应以及预期性和前后半球的交互作用。因此,预期外的名词在这个时间窗口引发了更多负ERP波形,这种影响在所有电极上都存在,对后部电极的影响更明显。
  5. 探索性分析 原始实验报告了名词预期性对冠词的影响,右半球大于左半球(主效应为名词预期性,以及预期性和大脑半球的交互作用),对当前研究中目测检查显示,右半球的预期内项目和预期外项目之间的数字差异更大,因此作者进行了两个特别的t检验,分别观察了预期效应在每个大脑半球的影响。 然而结果显示,预期效应在任何一个半球多重比较矫正之后的p值来看都不存在(未校正的话,左半球p=0.26,右半球p=0.02),因此作者在这里也没有发现强烈的半球差异。

讨论 ¶

作者未能复制原始实验中观测到的词汇预测的模式,即性别标记的冠词中,ERP幅度和名词的期望性无关。同时,使用贝叶斯分析也未能获得证明预期效应存在的确凿证据。 然而发现的模式在电压正/负和头皮分布方面都在预期的方向上,而且得到的效应大小与原始实验一致。尽管如此,作者必须得出结论,没有强有力的证据表明使用性别标记的冠词能显示荷兰语中的名词的预激活。同时对整个ERP进行目视检查,发现选择的时间窗口200-600ms的模式可能没有与其他时间段不同。 但由于本研究不算是直接复制原始实验,而是有一些材料、方法上的变化,所以作者下面也讨论了方法差异的潜在影响,随后讨论了使用语法性别操作进行词汇预测研究相关的一些重要问题。

  1. 原始研究和当前研究方法学上的差异 尽管没有复制出原始实验的效应,但确实看到了不同条件下原始平均值的差异,并且效果的地形图和原始实验相似。因此有一种可能是荷兰语的性别标记冠词确实可以观察到名词的预激活,但本研究由于实验设计差异,这些效应减弱了。 第一个可能影响的区别是刺激呈现的速度,有研究显示这会影响理解者在预测加工中的投入程度。但根据以往研究结果,本实验中的差异应该会扩大预测效应(本研究呈现速度比原始研究更慢)。 第二个因素可能是本研究中的filler数量较少,这导致了本研究中,出现了较高比例的意想不到的单词(看来和rational adaption有关系)本实验中46%的unexpected而原始实验中仅25%。Yan et al. (2017)认为没有filler的试验创造了一个unexpected比例更大的语境,因此创造了一个更不确定的环境。这可能导致被试在实验中减少自己的总体预测行为(已经被证实过了,N400在这种环境下减小,但那些人设计的材料都是结构相似的短句,而且目标词都在句末位置,参与者意识到这些名词意外的可能很高,所以调整预测)。但目前研究的材料可变性很大,这种rational adaption能在多大程度上调整预测就不太清楚了。为了量化原始实验和本实验在这个因素上的差异,作者观察了被试在每个实验中看到违反预期的冠词的比例。总之,表明本研究确实包含更多的预测不一致的因素,因此可能导致本复制实验缺乏这种词汇预激活效应。 因此可以将本实验中的实验设置作为预测效应较小的条件,预测效应很容易受到给定实验条件的影响。
  2. 目标名词的预测效果 虽然没有在冠词位置观察到预测效果,但确实看到了名词处预测一致和预测不一致所引起的ERP差异。有的这类实验以名词位置的N400作为实验效度标准,但原始实验中冠词和名词之间还有2-5个词,这之间又很大的间隔,所以被试可能可以在冠词不匹配的情况下放弃或者修改他们的预测,而且已经有证据表明当遇到预测不一致的语法信息时,预测就会更新(这大概就是rational adaption的另一种形式),但本实验中仍然观察到了名词部位的N400。 这里也有两种可能性(这里大概是在解释为什么冠词没有N400而名词有N400):1. 被试可能没有预激活(预期名词的语法性别),因此可能看见性别不匹配的冠词并不惊讶。这意味着被试不用放弃或修正他们的预测,只有在遇到名词本身时,他们才会注意到这个名词与先前语境激活的表征不匹配。2. 被试也可能确实预激活了名词(语法上的性别),在遇到预期外的冠词时,被试修改或放弃了自己的预测。然而由于他们的预测是在预期条件下得到证实的,名词部位观察到的N400效应实际上是预期内名词和预期外条件下的修订预测/放弃预测下的差异。 由于原始实验在冠词和名词位置都观察到了N400,所以后一种可能性似乎最大:名词处的N400预期效应反映了高度预期的名词和根本没有预测(或是修正预测)的名词之间的加工差异。
  3. 荷兰语的语法性别:对未来研究的考虑 有许多词汇预测研究都是用荷兰语做的,但实际上有一些与荷兰语性别一致相关的因素,使得情况变得复杂,例如前文所说的de、het可以用于除了性别标记的其他情况,如复数名词。这种不完全匹配的情况就有一种问题,例如,当出现意料之外的DE时,被试可能并不需要在语义上更改自己的预测(即变成其他的词),他们只需要在形式层面上更改预测(例如把对单数名词的预期修改为复数名词),但到目前为止荷兰语的性别标记系统的这个特征还没有得到讨论。所以以后的实验应该把实验材料的这个设置纳入讨论。 尽管其并不是完美的预测线索,但之前研究中,预测效应已经得到了证明。那么这些基于DE和HET预测的非排他性,到底反映了什么类型的处理?一种可能是,在这些研究里,被试强烈认为出现的单词是单数非小态形式(即排除了性别之外的影响),并在遇到冠词后修改了即将到来的名词的含义。另一种可能性就是,在冠词上观察到的N400并不反映预期名词含义的修订,而是预期名词形式的修订(这还是产生了语义层面的预测)。同时大多研究也没有考虑冠词的定/不定的影响,材料里不管适不适合,所有冠词都是不定冠词,这可能本来就会影响ERP。

作为词汇预测测试用例的语法性别一致可能的问题? 词汇预测有三个水平:意义、形式、音韵。使用性别相关材料,研究者处理的是那种水平的预测并不完全清楚。比如上面讨论的就是到底是还预测了一个名词的具体形式(例如它是复数还是小称),还是只预测了名词的意义。另一个问题就是,被试是否预先激活了一个特定的名词,还是也预先激活了前面限定词的特定形式(这不就是“双重本质”那篇论文里讨论的吗?有什么区别么?)。 换句话说,(这里的换句话说终于让我看明白了之前那篇论文讨论的具体观点是什么了):到底是:1. 被试在遇到冠词时有不匹配效应(即N400),是因为很难将它和一个已经激活的名词整合在一起。2. 预测的名词实际上预先激活了冠词的特定形式,但预测的形式在那个时间点并没有遇到。(这里就没有说难道语境就不能产生预测吗!!!那么也许真的可以从这里出发) 另一个重要的问题:预测到底是全或无现象,还是说预测是一种梯度现象(比如那种把完型填空比例当预测比例的研究,大概就是默认的这种情况)。之前有些研究发现完型填空比例和冠词处的ERP有关,这支持梯度说法,但这个效应尚未被复制(同时需要注意,有的用的名词的完型填空概率,而有的实验直接选择冠词的完型填空概率)。

总结 ¶

本实验未能复制冠词处的N400效应。尽管密切服从最初的实验设置,但还是有一些重要的方法差异,这可能是导致本研究报告较弱的原因之一。所以大概需要更多的这方面的研究。同时该文还提出了一些关于使用荷兰语语法性别标记的一些观点。 本文讨论的多项实验的结果都支持:在语言理解中,我们确实按照惯例地预激活词汇项目及其语法特征。但实际上这些研究之间并不一致,此外,也还没搞清楚:预测的内容是什么,当遇到意想不到的语法性别输入时会发现什么? 可以在未来研究这些方面。

我的思考 ¶

这篇收获特别多,大概厘清了之前那个荷兰语研究中的讨论,同时也为设计的实验提出了新的问题,就是那个预测失败后的冠词处的rational adaption,那不如直接弄一个不加任何名词的,比如”你快别喝了,给我也来<一杯>“,但这和<一杯><可乐>都呈现出来有什么区别?