句法结构或词汇属性的频率标注——一项脑磁图研究



Kalenkovich, E., Shestakova, A., & Kazanina, N. (2022). Frequency tagging of syntactic structure or lexical properties; a registered MEG study. Cortex, 146, 24–38. https://doi.org/10.1016/j.cortex.2021.09.012

句子理解 句法加工 层级句法结构 脑磁图 频率标注 分布语义向量

  • 传统的 句子理解观点认为,听者使用层级句法规则来分析语言输入。
  • 丁鼐等人(Ding et al.,2016)的脑磁图研究为这一说法提供了生理学证据,该研究利用频率标记范式证明,听者无意识地(自动地)跟踪定期出现的句法成分。
  • 最近,这项研究的结果受到了(Frank&Yang,2018)的质疑,他们使用分布式语义向量模型成功地重复了Ding的实验,该模型完全依赖于词汇信息,并未涉及任何层次句法表述。

目前的MEG研究旨在区分 Ding实验结果的两种解释。 本文作者:利用俄语丰富的形态,作者设计了两种句法结构不同的句子;关键是,这是通过在其中一个词上操控单个词缀而实现的,而句子中的所有其他词根和词缀保持不变。

  • 在实验一中,根据Frank和Yang的词汇-语义模型,作者成功地验证了词汇重叠,所以这两种类型的句子应该产生相同的活动模式的想法。
  • 在实验二中,作者记录了俄语被试在听这两类句子时的MEG活动。与层级句法解释相反、与词汇-语义模型相一致的是,作者观察到在两种情况下,参与者追踪刺激属性的方式没有差异。

最近的其他证据证实,作者的发现表明,Ding等人解释的反映高级句法成分的峰值的形成可能源于非句法因素。

语言是人与人之间交流信息的主要手段。语言在这项任务中成功的一个关键原因在于它的生产力,即说话者产生表达新思想的新句子的能力与听话者理解它们的能力相结合。是什么让作者有可能理解以前从未听说过的新奇句子?一种占主导地位的语言学理论(Berwick&Weinberg,1984,p.325;Chomsky,2002,p.117;Everert,Hubregts,Chomsky,Berwick,&Bolhuis,2015)提出,这种能力是由说话人和听话人共享的层级句法规则支撑的。根据这一理论,将词组合成“句法成分”单位是句子理解的关键步骤。

在最近的一项研究中,Ding等人提出了生理证据,表明听者会自动提取出层级句法结构。在一项使用频率标记范式的脑磁图(MEG)研究中,参与者听了一系列的单词。这些序列可以代表一系列单独的单音节单词 (e.g.,black went must from…),也可以被解析成更大的句法成分,例如双音节短语(e.g.,new plans,big box…;“短语”)或由两个双音节短语组成的句子(e.g.,new plans give hope, big fish escaped…;“句子”)。在不同的条件下,音节是等时呈现的(例如,每个音节恰好持续250毫秒);所有的韵律线索都受到控制,因此词串没有指向短语或句子边界的韵律线索。不出所料,在所有条件下,参与者的脑磁图功率谱都产生了一个4Hz的峰值,对应于正常的音节呈现速度(图1a);关键的是,短语条件的特征是与短语速率相对应的2Hz的额外峰值(图1b);句子条件产生了4Hz的音节峰、与短语速率相对应的2Hz的短语峰值(例如,new plans, give hope)和与句子频率相对应的1Hz峰值(new plans give hope;图1c)。与4Hz音节峰值不同,2Hz短语峰值和1Hz句子峰值不可能由于声学信号中的任何规律性而出现,而是被认为反映了听者的句法知识,这导致只要有句法意义的成分,就会自动将词流解析成句法上有意义的成分。

图片

图1:Ding等人(2016)的结果可视化:功率谱的峰值与刺激中出现的声学(音节)和句法(短语,句子)单位完全对应。注:数据不是原始的,图表仅用于说明目的。

Frank和Yang对Ding的解释提出了质疑,并提出了一种纯粹用词汇而不涉及句法的解释。他们模拟了Ding使用的刺激所引发的活动。使用分布语义向量(Mikolov,Chen,Corrado,&Dean,2013)。对于每个单词,他们基于word2vec模型构建了一个e300维分布语义向量(Mikolov et al.,2013)。对于每个单词,基于大型文本语料库中围绕所述单词的单词来计算分布语义向量(而不求助于诸如短语和句子之类的更高级别的句法表示),从而使得出现在相似词汇上下文中的单词接收相似的向量。当用对应的分布语义向量模拟Ding等人的序列中的每个词(或多音节汉语刺激的情况下的音节)时,每个条件下的功率谱被证明与Ding的神经频谱数据定性地相同。因此,Frank和Yang为Ding的神经发现提供了另一种解释,即所观察到的谱峰是由刺激的词汇属性而不是其层次句法特征来解释的。

正如Frank和Yang指出的,通过分布式语义向量方法成功复制神经数据的一个可能原因在于Ding实验材料的性质。例如,在Ding的英语句子条件中,每隔一个词就是一个名词,通常表示一个实体,每四个词就是一个及物动词,表示一个动作。因为共享句法和/或语义属性的单词往往具有相似的周围词汇上下文,所以它们对应的分布语义向量也是相似的。由于相似向量经常出现,模拟句子条件的功率谱显示了反映这些规律性的谱峰。

**为了区分词汇和句法水平对神经追踪的贡献,需要测试基于分布语义的预测和基于句法成分的预测是不同的条件。**具有丰富词法的语言,在表面上微妙地将单个后缀添加到同一个词根上,可以对句法结构产生相当大的影响,这对语法结构有很大帮助。例如,考虑图2中最小不同的俄语句子。这两个条件在词根和大部分词缀方面是相同的;不同之处在于单个音素,即第二个名词的最后一个音素,它是标记名词大小写的后缀:名词的格要么是所有格(Diny“of-Dina”),要么是与格(Dine“for-Dina”)。

图片

图2 :一组包含Genitive and Dative condition【属格(2格)和与格(3格)条件】的句子。

第二个名词的格对整个句子的句法结构有相当大的影响。属格条件是对称的,因为它包含两个双词的短语,即名词短语(NP)povar Diny“Dina‘s cook”和动词短语(VP)Pechot bliny“is making pancakes”;以下作者将其称为“2-2”条件。与格条件,被称为“1-3”条件,由一个单词NP povar“厨师”和一个三词VP Dine Pechot bliny“is making pancakes for Dina”组成。重要的是,这两种情况都不存在花园路径效应。在属格条件下,当听话者遇到$$Diny^{GEN}$$时,可以立即形成一个名词短语([NP povar Diny])。在与格条件下,$$Dinex^{DAT}$$不能附着在povar上形成NP;相反,VP必须投射$$[NP povar][VP Dine…]$$。

然而,由于第二个名词(Dina)上的词根和所有词缀(格标记除外)是相同的,因此基于分布语义向量的模型很可能对这两个条件产生类似的结果。

**在实验1中,作者使用分布语义向量对由图2中属格条件或与格条件中的多个句子组成的序列串的活动进行了建模。**这一计算模拟已经完成,因为它的结果是MEG实验的先决条件。根据实验1的结果,模型在音节、单词、双词和句子的频率上达到了峰值。最重要的是,属格条件下的2个词的峰值并不比与格条件下的大。也就是说,在属格条件和与格条件下,根据刺激的词汇属性出现的更高级别的分组并不模仿句法成分,因此有可能分离句法和分布性语义成分。

**在实验2中,作者使用MEG记录了俄语母语者在听与实验1相同的句子序列时的大脑活动,**这些句子以3.125Hz的音速(=1/320ms/音节)等时呈现。在这两种情况下,作者预计音节速率为3.125Hz的峰值反映了听觉刺激的规则性质,词频为1.56Hz的峰值反映了词汇项的规则出现(正如Makov等人,2017年他们发现了双音节词的词峰),以及句频为0.39Hz的峰值反映了四音节词水平的规律性(要么是因为建立了句子大小的句法成分,要么是由于语法类别的规则出现,例如,每四个单词都是及物动词)。关键的是,只有当听话者被带到句法结构中时,作者才会预期在属格2-2条件下出现一个0.78Hz的双音节词的峰值,这将明显强于与格1-3条件,反映了在前一种条件下短语的规则出现,但在后一种条件下没有。作者在本报告的第一阶段之前记录了几个受试者,这使作者能够验证setup的质量,而无需检查上述条件之间的关键差异。预数据部分描述了这些初步结果。

如图2所示,构造了两个条件的64个句子集。所有的句子都由四个双音节单词组成,并遵循Noun1+Noun2+动词+Noun3的模式。Noun1总是主格,Noun3总是宾格,并且是及物动词的直接宾语。名词2在所有格(属格2-2条件)和与格(与格1-3条件)中都是专有名词或常见名词。选择名词2是为了使格标记在语音和正字法上是明确可分的,即,作者不使用由于音位减少而属格标记后缀和与格标记后缀发音相似的名词(例如,名称Petja“Pete”,其属格$$Peti^{GEN}$$和与格$$Petex^{DAT}$$格形式都发音为[Peti])。每个单词正好出现在一对句子中。

由于听觉预筛选而获得最低分数的四个句子对被排除在外(参见实验2下的听觉刺激的生成和预筛选一节)。实验一采用了剩余的60组句子。

对于模拟,作者密切遵循Frank和Yang的程序。对12名参与者进行了模拟。对于每个参与者,来自每个条件的所有句子都被重新排列,以产生一个60个句子的长序列。因此,这些序列有480个音节长(60个句子×4个单词×2个音节=480个音节)。

接下来,每个480个音节的长序列必须被表示为分布语义向量链。这是通过模仿人类大脑在听觉上接触到相同的音节序列,以等时的音节速率执行的分词过程来完成的,而没有任何关于单词边界的线索。在Frank和Yang之后,程序如下:480个长音节序列(S1,S2,…,S480)中的第一个音节S1激活了一组单词,这些单词以该第一个音节开始,每个单词按照其频率成比例地被激活。然后,将序列中的下一个音节相加以产生S1S2,并将队列减少到仅以该字符串开头的那些单词;只要序列S1S2…。Sk产生了一个非空队列。一旦队列是空的,分割过程就从最后一个音节重新开始,即Sk。以英语中的can-dy-mel-ted(candy melted)为例,当音节can可用时,它会激活一个队列,其中包括单词can、candy、candle、canton、candid、cantaloupe、candidate、candyfloss等。一旦can-dy变得可用,队列就会减少到candy和candyfloss以及很少的其他单词;当添加下面的音节时,结果字符串can-dy-mel将产生一个空单词队列。然后,分割过程从最后一个音节(mel)重新开始。当应用于作者的俄语材料时,97%的单词边界被正确识别;不正确的识别被保留下来(即不是手动固定的)。

然后,由上述步骤产生的序列中的每个队列由其包含的单词的分布语义向量的频率加权和来表示。作者使用来自俄罗斯分布主题词表项目(Panchenko,Ustaov et al.,2017)中的向量,作者从公开可用的数据集(Panchenko,Arefyev et al.,2017)下载。作者在俄语图书语料库(130亿字)上训练了Skipgram word2vec模型(Mikolov et al.,2013)。在Skipgram word2vec模型中,训练具有单个隐藏层的神经网络以预测设定大小的周围上下文窗口内的每个单词的邻居(例如,在单词的左侧或右侧的5个单词内)。训练后,将词与隐含层连接的权重作为词的分布语义向量。训练采用skip-gram模型,隐含层有500个单位,上下文窗口大小为10个单词,重复3次。

分割程序被应用于每个参与者的序列(每种情况一个)。每个音节被映射到500维向量v,该向量表示在听到该音节时被激活的队列的分布向量。为了以与听觉呈现类似的方式表示音节流的时间动态(如在随后的实验2中),将表示从音节开始的时间t处引发的激活的向量w(T)建模为背景噪声,其中v在时间τ ms之后出现(时间τ随机地从范围为40±25的均匀分布中提取)。对于每个维度i,以及对于1ms到320ms之间的每个τ(320ms是脑磁图实验中的音节持续时间),激活计算如下:

图片

其中,$$\varepsilonx_{i}(t)$$的正态分布情况为:μ=0,σ=0.1。

对于每个参与者和每个条件,上述过程产生了500×153,600个矩阵,其中153,600=60句×8个音节×320毫秒是每个序列的持续时间(毫秒)。

仿真输出的矩阵沿时间维度进行傅里叶变换,只保留DC以上和5Hz以下的系数。然后,沿着500长维度对所得系数的平方取平均值,以计算每个频率段的平均功率。

为了量化功率谱中任何峰值的统计意义,作者通过将每个频率段的功率除以紧邻的四个频率段(每侧两个)的平均功率来计算信噪比(SNR)。平坦的频谱对应于接近于1的SNR。通过使用单样本单尾t检验比较归一化SNR是否显著大于1来检验每个频段的峰值存在。假发现率(FDR,Benjamini&Hochberg,1995)的显著水平为0.001。

图3显示了属格2-2和与格1-3条件的模拟功率谱,并清楚地显示了音节、单词、两个单词和句子的频率以及它们的谐波的峰值。

图片

图3:从分布语义向量模型模拟属格和与格条件下的平均功率谱。音节、单词、两词组合和句子对应的频率峰值用箭头标出。细灰线表示单个参与者的模拟。粉色或蓝绿色线代表所有模拟参与者的平均值。

作者使用配对样本双尾t检验比较了音节(3.12Hz)和词频(1.56Hz)在不同条件下的信噪比。由于名词2的属格形式和与格形式对应的分布语义向量的不同,音节峰值并无不同($$M{d}$$=-0.47,95%CI[-3.34,2.39],t(11)=-0.36,P=0.723);然而,由于Noun2的属格形式和与格形式对应的分布语义向量的不同,单词峰值确实有所不同($$M{d}$$=1.99,95%CI[1.51,2.48],t(11)=9.04,P<0.001)。由于每个条件下单词峰值的幅度可能影响了SNR谱中较高的(2个单词和句子)峰值的幅度,导致与关键操作无关的差异,因此作者使用单词频率的SNR对所有SNR进行归一化。这是在对数空间中完成的,以将基线噪声信噪比保持在1(见公式(1))。

图片

图4所示的归一化SNR在音节、单词、单词和句子频率以及它们的谐波的频率上与1有显著差异(P<0.001)。重要的是,属性词2-2条件下的词归一化2字峰值不大于属性词1-3条件下的词归一化2个词的峰值($$M{d}$$=0.05,95%CI [-∞,0.09],t(11)=2.53,P=0.986)。