文献：Lo, C. W., Tung, T. Y., Ke, A. H., & Brennan, J. R. (2022). Hierarchy, not lexical regularity, modulates low-frequency neural synchrony during language comprehension. Neurobiology of Language, 1-41. https://doi.org/10.1162/nol_a_00077

论文原文 ¶

1. 研究背景 ¶

Bemis 和 Pylkkänen (2011)在脑磁图记录中研究了人类如何处理两个单词的组合短语(e.g. “red boat”) vs. 非组合短语(e.g. “xkq boat”) vs. 单词列表(e.g. “cup boat”)，发现组合短语的活动在左前颞叶(LATL)呈现第二个单词后200-250ms增加。Neufeld等人(2016年)通过在脑电图(EEG)记录中使用相同的实验范式，发现组合短语在类似的时间窗口(184-256 ms)中具有更大的负性。并且有研究表明，在大脑区域如额下回(Pallier et al., 2011; Schell et al., 2017; Zaccarella et al., 2017)，颞上后沟 (Zaccarella et al., 2017),前颞叶(Humphries et al., 2006; Matchin et al., 2017),角回(Humphries et al., 2006; Matchin et al., 2017)和颞顶结合部(Matchin et al., 2017)对句子的激活更强。

虽然许多研究已经提供了合成加工何时何地发生的神经证据，但它在神经回路中实际上是如何实现的仍然很不明确。越来越多的工作试图开发正式的模型来解释如何计算层次和整合的加工过程和调节神经活动。例如，Martin (2020)认为，通过神经群之间的增益调制将语音包络段识别为音节或音素，并将信息向前传递到词汇和形态句法操作的下一阶段。在多个同时进行重复这个相同的模板产生了一个神经结构的模型，该模型在多个时间尺度上调整语言从音素到句子的组成。

与这一模型相一致的是，不同频段的节律活动与语言理解和言语加工的不同阶段相关联(Arnal et al., 2016; Meyer, 2018)。低γ频段(30–50 Hz)似乎与声学的微结构连接到离散的音素信息有关(Di Liberto et al., 2015; Giraud & Poeppel, 2012)。跨越δ和θ波段(1-4；4–8 Hz)较慢的同步活动则与高层级的音节信息的分析联系起来(Ghitza, 2011; Ghitza & Greenberg, 2009)。最近，低频段的节律活动与更抽象的高层级语言信息的处理相关联。时间-频率分析的多项研究表明，δ频段神经活动与句法结构的加工尤其相关( Bonhage et al., 2017; Kaufeld et al., 2020; Meyer et al., 2016; Meyer & Gumbert, 2018)。Kaufeld等人(2020年)评估了与由无意义的单词或单词列表组成的刺激相比，δ频段神经活动与句子刺激的更高层级句法内容之间的相互信息，发现对于包含有意义的句法结构的句子刺激，δ波段的EEG信号之间的相互信息增加了。

补充证据来自使用同步语音的研究，Ding等人(2016)使用了一种频率标记范式，句子刺激由普通话中的四个单音节词组成。每个音节以固定250ms连续播放，可以看到当汉语母语者听这些语音刺激时，MEG记录到1、2和4 HZ谱峰。而当非普通话母语者听这些语音刺激时，只观察到了4 Hz 峰值。

Martin和Doumas (2017年)根据基于时间的约束机制提出了一个结构性解释。在这种机制下，词汇层级的表征通过各个层级触发单位之间的同步调制被绑定到短语中，并最终绑定到句子中。这种方法在不丢弃来自较低层次的信息的情况下，捕获了不同层次表示之间的组合关系。例如，按照此模型，符合语法序列(如“dry fur rubs skin”)刺激引发了1 Hz、2 Hz和4 Hz的峰值；无意义的语音刺激（保留句法关系但组合起来无意义的序列）也能观察到同样的峰值；而无句法结构的单词序列只会引发4 Hz的峰值。

但是，句法结构可能不是以上δ频段模式的唯一解释。Ding等人(2016)使用的刺激中名词以2 Hz频率呈现，而动词以1 Hz呈现。因此观察到的信号可能反映了语音刺激的词汇属性的神经诱导而不是语言层级结构的构建(Frank & Yang, 2018)。并且Frank和Yang(2018年)将句子简单表示为编码词汇信息的高维数字向量序列的计算模拟似乎产生了与句子同步所观察到的相似的功率谱，这表明句子水平的皮层跟踪结果可能反映了连续的词汇或词性信息，而不一定反映了层次句法信息。总之，δ频段的神经震荡到底是反映了语言结构的层级信息还是仅仅是词汇属性信息仍不清楚。

Burroughs等人(2021)记录了英语母语者听同步语音时的脑电图，这些语音包括符合语法的形容词-名词短语、不符合语法的形容词-动词短语、语法混合短语和随机音节。符合语法的形容词-名词短语和混合短语出现了对应短语层级的峰值，而形容词-动词短语和随机音节没有出现对应短语层级的峰值。结果与词汇表征模型不一致，该模型预测不符合语法的形容词-动词短语中也会出现对应短语层级的峰值。Lu等人(2022)报告了一个1 Hz的句子层级的峰值在单词列表中比句子条件中弱；他们把这解释为了支持层级结构的证据。

相反，另一项研究似乎支持词汇表征的说法。Kalenkovich等人(2022)记录了俄罗斯人听两种不同句法结构（所有格或与格）等时语音时的脑磁图数据。这种差异仅由一个词缀音素引起的；其他所有单词和词缀保持不变。这种微小的表面差异影响了潜在短语组织，根据层级结构规则，这些短语结构应该导致等时性语音中不同的同步模式。但结果是在所有情况下都观察到了与句子、双词、词和音节频率对应的神经峰值，都不受句法结构的调节。这与词汇表征模拟结果是一致的。

上述最近的研究表明关于δ频段神经震荡的功能解释仍在争论。此研究使用了反相法，在语音词汇层面保留了语义信息和词类的规则模式，但移除了所有语法结构。词汇序列模型预测，这些反向刺激的等时呈现将引发1 Hz和2 Hz的峰值，因为它们保留了规则的词性序列。也就是说，每个序列仍然有一个形容词、两个名词和一个动词。将句子简单地表示为高维向量序列的计算机模拟验证了这一预测。但是，本研究的脑电图数据与层级结构性解释一致，即反相短语在4 Hz处引出振荡峰，而在1 Hz或2 Hz处没有；这与词汇模型对这些刺激的模拟结果不一致。

2. 研究方法 ¶

本研究探讨δ频段的神经震荡是否反映了语言的层级结构信息还是词汇属性信息，如果受到词汇信息的调节（比如，每秒1个动词，每秒2个名词等等），那么这种同步的神经震荡就会在单词序列顺序颠倒时出现，这样保持了序列的规则性但是破坏了句法结构 (Frank & Yang, 2018)。如果神经震荡确实依赖层级结构信息的话，那么在电脑序列的语音刺激中就不能观察到同样的神经震荡。

2.1 被试 ¶

37名（22名女性，15名男性）19到52岁（平均年龄：27.7岁）的普通话母语者参与了这个实验，他们都是右利手，有正常的听力，自我报告无神经障碍。由于数据质量原因，有6名被试的数据被排除分析。因此，最终有31名（18女，13男）被试的数据纳入分析。

2.2 材料 ¶

实验项目是从50组四个实验条件中提取的四音节汉语序列，如表2所示。条件一的四音节句子（表示为ABCD）改编自Ding等人2016年的研究，此条件下前两个音节构成了由形容词＋名词组成的NP或名词＋名词（例如，树木），后两个音节构成了VP（例如，吃草）。其中Ding（2016）研究中的6个项目因为一下原因被替换：（1）对于台湾或大陆母语者听起来不太自然的术语被替换；（2）使用了限定语素的刺激，例如“和尚”、“蝴蝶”，不能再细分为形容词+名词或名词+名词；这些句子被替换成了自由语素的句子。

第二条件是由语义不匹配的序列组成，按照Ding等人（2016）研究中的刺激，本研究在保留词位置的同时，将四音节句子条件中的四个词分别独立地随机替换为另外句子中同位置的词。并对这些替换后的序列进行审查，以确保这些序列刺激听起来对汉语母语者来说是无意义的。

第三种条件下的句子由ABAB模式的双音节短语组成，这种情况下的序列是通过提取四音节句子的前两个单词并将它们配对成NP + NP序列来构建的。

第四个条件是由遵循BADC模式的反向短语组成的，颠倒了每个四音节句子的前两个单词和后两个单词的顺序。这个条件下能使词汇同步与层级结构同步分开，即依然有2Hz的名词，1Hz的动词，但是不符合句法结构。

语音刺激以单音节词为结构用合成器合成，以避免在音节序列上引起韵律轮廓。使用Praat (Boersma & Weenink，2022)中的Praat vocal toolkit (Corretge，2020)将每个单词压缩到240 ms，保留声调，并在每个单词后添加10 ms的静默间隙。因此，每个单音节词的呈现时间为250 ms，四音节序列的呈现时间为1s。从相同条件下抽取10个序列组成一个trial。

语音刺激的功率谱如图1所示。正如所料，在声学包络中仅观察到4 Hz的音节级峰值。实验共分为8个block，每个block中包含20个plausible和20个implausible trial。plausible trial包括条件一和条件三中的句法或语义上有意义的序列，implausible trial包括条件二和条件四中的语义不匹配和反转序列。给定的block由来自条件1的序列与来自条件2的序列配对，或者来自条件3的项目与来自条件4的项目配对组成。每种条件下的trial混合并随机出现在每个block中。因此，在整个实验中，共呈现给每个被试320个trial。

2.3 流程 ¶

将每个被试的声音响度设置为高于其听觉阈值+45 dB，要求被试通过按键判断1个trial是否包含plausible的句子/短语。在按键反应之后是800~1400ms的随机延迟后开始下一个trial，刺激用Psychopy2来呈现。并要求被试在呈现刺激时避免频繁眨眼和不必要的肢体移动。在每个block之间被试可以休息。在实验之前进行4次模拟以熟悉实验程序。在被试之间平衡block的顺序。

3. 结果 ¶

3.1 模型模拟 ¶

图2展示了从三个独立的单词嵌入表征导出的四词句子和反向短语的高达10 Hz的模拟功率谱。正如Frank和Yang (2018)所观察到的，基于单词序列的词汇属性，四词句子在1 Hz和2 Hz处显示出谱峰，模型预测在新的反向短语条件下也会观察到这样的峰值，因为词汇模式保持不变，只有短语层级结构被破坏。该实验测试在人类脑电图信号中是否也能观察到这样的峰值。

3.2 EEG结果 ¶

下图3总结了四种情况下的EEG频谱，可以看出四种情况下都有4 Hz 的“音节”峰值；在四音节句子和双音节短语中观察到了2 Hz的诱发功率峰值，但语义不匹配的句子或颠倒序列中没有观察到；只在四音节句子中观察到了1 Hz的“句子层级”的峰值。颠倒序列中没有观察到2 Hz的“短语层级”和1 Hz “句子层级”的峰值，这与词汇属性模型预测的结果相反。

下图4分别展示了四种情况下的ITPC(Intertrial phase coherence)和induced power，彩色线表示个体的反应；黑色线表示每种条件下的组平均值。ITPC结果与标准化evoked power相匹配，而四种条件下的induced power没有明显相关的光谱模式。

每个频率的统计比较如下图5所示，标准化evoked power观察到了1 Hz的主效应，事后成对Tukey测试显示，四音节句子条件与其他每一个条件的比较在统计上有显著差异(p < 0.01)，语义不匹配序列与短语之间(p = 0.7)，语义不匹配的句子与颠倒序列之间(p = 0.99)，或者短语与颠倒序列之间没有显著差异(p = 0.64)。2 Hz也观察到了条件之间的主效应，事后两两Tukey检验显示，四音节句子和语义不匹配的句子之间(p < 0.0001)、四音节句子和颠倒序列之间(p < 0.0001)以及短语和颠倒子序列之间(p < 0.0001)存在统计学上的显著差异，而四音节句子和短语之间以及语义不匹配和颠倒序列之间没有发现统计学上的显著差异。4 Hz 的音节谱峰条件之间存在 marginal effect。

]] ITPC的统计模式与标准化evoked power几乎相同，而没有观察到induced power存在可靠的效应。

4. 讨论 ¶

δ频段的低频神经活动可能与抽象的语言模式同步，本研究用以4 Hz固定频率播放存在或不存在句法结构的频率标记实验和EEG数据来测试神经同步的两种可能解释。结果支持了δ频段神经活动反应了语言层级信息的加工。此研究结果与Burroughs等人(2021)的最新报告一致，Burroughs等人(2021)通过比较符合语法的Adj-N短语和不符合语法的Adj-V短语来测试神经同步性。本研究重复了他们的发现，即不符合语法的序列扰乱了短语层级上的神经同步，并用普通话扩展到了句子层级上。

同时，本研究的结果似乎与Kalenkovich等人(2022)的结论相反，Kalenkovich等人(2022)推论俄语中不同的句法结构应该基于层级结构而不是词汇产生不同的神经同步模式。Kalenkovich等人(2022)用了与本研究完全不同的方式操控语法结构，本研究的操作很好的影响了语法是否形成，而Kalenkovich等人(2022)目标条件使用的与格和所有格在语法上都是可接受的。他们推断，与与格结构相反，层级解释可以预测所有格结构（短语以规则的间隔出现）更大的短语级同步性。然而，在这两种结构中发现了相似的神经同步模式。这一结果的解释高度依赖于相关结构的句法分析，以及作为在线句子识别基础的这些结构的解析理论，这两方面都值得进一步的研究。

等时语音观察到的神经同步是否反映了诱发反应或内源性振荡活动仍有争议(Martorell et al., 2020; Zoefel et al., 2018)，本研究结果有助于突出这个问题。如果诱发反应仅限于由外源性刺激引起，那么本研究的结果与内源性振荡观点一致，可能是通过一种相位-重置机制(Martin, 2020)。另一方面，如果诱发反应是由于内部产生状态转换，例如通过应用语法知识识别短语节点，这样的处理被时间锁定到等时语速，从而可以产生我们观察到的1和2 Hz的同步模式。也就是说，仅在常规句子中发现1和2 Hz峰值的事实必须归因于基于参与者的语言知识的内源性句法处理，但是这些信号是否反映内部诱发的神经反应或正在进行的振荡节律的相位重置仍然未知。

另外，Ding等人(2016)仅使用total power的测量来研究神经同步，而Ding等人(2017)分别分析了evoked 和induced power，evoked power反映了对外部刺激进行时间锁定和相位锁定的神经活动，而induced power反映了时间锁定但不相位锁定的神经活动。本研究结果与Ding等人(2017)的一致，在evoked power和ITPC中观察到了句子、短语和音节的同步性，但没有观察到induced power。

如何将结果关联到不依赖频率标记的语言处理中的δ波，也就是说如何将不自然的实验方案的结果推广到更自然的环境中。尚不清楚这种类型的神经同步在不同人群中如何变化，包括儿童和失语症患者，可以参考Getz等人(2018年)在语言学习环境中对这些模式的检查。