句法结构或词汇属性的频率标注——一项脑磁图研究

论文信息： ¶

Kalenkovich, E., Shestakova, A., & Kazanina, N. (2022). Frequency tagging of syntactic structure or lexical properties; a registered MEG study. Cortex, 146, 24–38. https://doi.org/10.1016/j.cortex.2021.09.012

关键词 ¶

句子理解句法加工层级句法结构脑磁图频率标注分布语义向量

摘要 ¶

传统的句子理解观点认为，听者使用层级句法规则来分析语言输入。
丁鼐等人（Ding et al.,2016)的脑磁图研究为这一说法提供了生理学证据，该研究利用频率标记范式证明，听者无意识地（自动地）跟踪定期出现的句法成分。
最近，这项研究的结果受到了(Frank&Yang,2018)的质疑，他们使用分布式语义向量模型成功地重复了Ding的实验，该模型完全依赖于词汇信息，并未涉及任何层次句法表述。

目前的MEG研究旨在区分 Ding实验结果的两种解释。本文作者：利用俄语丰富的形态，作者设计了两种句法结构不同的句子；关键是，这是通过在其中一个词上操控单个词缀而实现的，而句子中的所有其他词根和词缀保持不变。

在实验一中，根据Frank和Yang的词汇-语义模型，作者成功地验证了词汇重叠，所以这两种类型的句子应该产生相同的活动模式的想法。
在实验二中，作者记录了俄语被试在听这两类句子时的MEG活动。与层级句法解释相反、与词汇-语义模型相一致的是，作者观察到在两种情况下，参与者追踪刺激属性的方式没有差异。

最近的其他证据证实，作者的发现表明，Ding等人解释的反映高级句法成分的峰值的形成可能源于非句法因素。

1.引言 ¶

语言是人与人之间交流信息的主要手段。语言在这项任务中成功的一个关键原因在于它的生产力，即说话者产生表达新思想的新句子的能力与听话者理解它们的能力相结合。是什么让作者有可能理解以前从未听说过的新奇句子？一种占主导地位的语言学理论(Berwick&Weinberg，1984，p.325；Chomsky，2002，p.117；Everert，Hubregts，Chomsky，Berwick，&Bolhuis，2015)提出，这种能力是由说话人和听话人共享的层级句法规则支撑的。根据这一理论，将词组合成“句法成分”单位是句子理解的关键步骤。

在最近的一项研究中，Ding等人提出了生理证据，表明听者会自动提取出层级句法结构。在一项使用频率标记范式的脑磁图(MEG)研究中，参与者听了一系列的单词。这些序列可以代表一系列单独的单音节单词 (e.g.，black went must from…)，也可以被解析成更大的句法成分，例如双音节短语(e.g.，new plans，big box…；“短语”)或由两个双音节短语组成的句子(e.g.，new plans give hope, big fish escaped…；“句子”)。在不同的条件下，音节是等时呈现的(例如，每个音节恰好持续250毫秒)；所有的韵律线索都受到控制，因此词串没有指向短语或句子边界的韵律线索。不出所料，在所有条件下，参与者的脑磁图功率谱都产生了一个4Hz的峰值，对应于正常的音节呈现速度(图1a);关键的是，短语条件的特征是与短语速率相对应的2Hz的额外峰值(图1b)；句子条件产生了4Hz的音节峰、与短语速率相对应的2Hz的短语峰值(例如，new plans, give hope)和与句子频率相对应的1Hz峰值(new plans give hope；图1c)。与4Hz音节峰值不同，2Hz短语峰值和1Hz句子峰值不可能由于声学信号中的任何规律性而出现，而是被认为反映了听者的句法知识，这导致只要有句法意义的成分，就会自动将词流解析成句法上有意义的成分。

图1：Ding等人(2016)的结果可视化:功率谱的峰值与刺激中出现的声学(音节)和句法(短语，句子)单位完全对应。注:数据不是原始的，图表仅用于说明目的。

Frank和Yang对Ding的解释提出了质疑，并提出了一种纯粹用词汇而不涉及句法的解释。他们模拟了Ding使用的刺激所引发的活动。使用分布语义向量(Mikolov，Chen，Corrado，&Dean，2013)。对于每个单词，他们基于word2vec模型构建了一个e300维分布语义向量(Mikolov et al.,2013)。对于每个单词，基于大型文本语料库中围绕所述单词的单词来计算分布语义向量(而不求助于诸如短语和句子之类的更高级别的句法表示)，从而使得出现在相似词汇上下文中的单词接收相似的向量。当用对应的分布语义向量模拟Ding等人的序列中的每个词(或多音节汉语刺激的情况下的音节)时，每个条件下的功率谱被证明与Ding的神经频谱数据定性地相同。因此，Frank和Yang为Ding的神经发现提供了另一种解释，即所观察到的谱峰是由刺激的词汇属性而不是其层次句法特征来解释的。

正如Frank和Yang指出的，通过分布式语义向量方法成功复制神经数据的一个可能原因在于Ding实验材料的性质。例如，在Ding的英语句子条件中，每隔一个词就是一个名词，通常表示一个实体，每四个词就是一个及物动词，表示一个动作。因为共享句法和/或语义属性的单词往往具有相似的周围词汇上下文，所以它们对应的分布语义向量也是相似的。由于相似向量经常出现，模拟句子条件的功率谱显示了反映这些规律性的谱峰。

**为了区分词汇和句法水平对神经追踪的贡献，需要测试基于分布语义的预测和基于句法成分的预测是不同的条件。**具有丰富词法的语言，在表面上微妙地将单个后缀添加到同一个词根上，可以对句法结构产生相当大的影响，这对语法结构有很大帮助。例如，考虑图2中最小不同的俄语句子。这两个条件在词根和大部分词缀方面是相同的；不同之处在于单个音素，即第二个名词的最后一个音素，它是标记名词大小写的后缀：名词的格要么是所有格(Diny“of-Dina”)，要么是与格(Dine“for-Dina”)。

图2 ：一组包含Genitive and Dative condition【属格（2格）和与格（3格）条件】的句子。

第二个名词的格对整个句子的句法结构有相当大的影响。属格条件是对称的，因为它包含两个双词的短语，即名词短语(NP)povar Diny“Dina‘s cook”和动词短语(VP)Pechot bliny“is making pancakes”；以下作者将其称为“2-2”条件。与格条件，被称为“1-3”条件，由一个单词NP povar“厨师”和一个三词VP Dine Pechot bliny“is making pancakes for Dina”组成。重要的是，这两种情况都不存在花园路径效应。在属格条件下，当听话者遇到$$Diny^{GEN}$$时，可以立即形成一个名词短语([NP povar Diny])。在与格条件下，$$Dinex^{DAT}$$不能附着在povar上形成NP；相反，VP必须投射$$[NP povar][VP Dine…]$$。

然而，由于第二个名词(Dina)上的词根和所有词缀(格标记除外)是相同的，因此基于分布语义向量的模型很可能对这两个条件产生类似的结果。

**在实验1中，作者使用分布语义向量对由图2中属格条件或与格条件中的多个句子组成的序列串的活动进行了建模。**这一计算模拟已经完成，因为它的结果是MEG实验的先决条件。根据实验1的结果，模型在音节、单词、双词和句子的频率上达到了峰值。最重要的是，属格条件下的2个词的峰值并不比与格条件下的大。也就是说，在属格条件和与格条件下，根据刺激的词汇属性出现的更高级别的分组并不模仿句法成分，因此有可能分离句法和分布性语义成分。

**在实验2中，作者使用MEG记录了俄语母语者在听与实验1相同的句子序列时的大脑活动，**这些句子以3.125Hz的音速(=1/320ms/音节)等时呈现。在这两种情况下，作者预计音节速率为3.125Hz的峰值反映了听觉刺激的规则性质，词频为1.56Hz的峰值反映了词汇项的规则出现(正如Makov等人，2017年他们发现了双音节词的词峰)，以及句频为0.39Hz的峰值反映了四音节词水平的规律性(要么是因为建立了句子大小的句法成分，要么是由于语法类别的规则出现，例如，每四个单词都是及物动词)。关键的是，只有当听话者被带到句法结构中时，作者才会预期在属格2-2条件下出现一个0.78Hz的双音节词的峰值，这将明显强于与格1-3条件，反映了在前一种条件下短语的规则出现，但在后一种条件下没有。作者在本报告的第一阶段之前记录了几个受试者，这使作者能够验证setup的质量，而无需检查上述条件之间的关键差异。预数据部分描述了这些初步结果。

2.实验1：分布式语义向量模型的计算模拟 ¶

2.1 材料 ¶

如图2所示，构造了两个条件的64个句子集。所有的句子都由四个双音节单词组成，并遵循Noun1+Noun2+动词+Noun3的模式。Noun1总是主格，Noun3总是宾格，并且是及物动词的直接宾语。名词2在所有格(属格2-2条件)和与格(与格1-3条件)中都是专有名词或常见名词。选择名词2是为了使格标记在语音和正字法上是明确可分的，即，作者不使用由于音位减少而属格标记后缀和与格标记后缀发音相似的名词(例如，名称Petja“Pete”，其属格$$Peti^{GEN}$$和与格$$Petex^{DAT}$$格形式都发音为[Peti])。每个单词正好出现在一对句子中。

由于听觉预筛选而获得最低分数的四个句子对被排除在外(参见实验2下的听觉刺激的生成和预筛选一节)。实验一采用了剩余的60组句子。

2.2 刺激 ¶

对于模拟，作者密切遵循Frank和Yang的程序。对12名参与者进行了模拟。对于每个参与者，来自每个条件的所有句子都被重新排列，以产生一个60个句子的长序列。因此，这些序列有480个音节长(60个句子×4个单词×2个音节=480个音节)。

接下来，每个480个音节的长序列必须被表示为分布语义向量链。这是通过模仿人类大脑在听觉上接触到相同的音节序列，以等时的音节速率执行的分词过程来完成的，而没有任何关于单词边界的线索。在Frank和Yang之后，程序如下：480个长音节序列(S1，S2，…，S480)中的第一个音节S1激活了一组单词，这些单词以该第一个音节开始，每个单词按照其频率成比例地被激活。然后，将序列中的下一个音节相加以产生S1S2，并将队列减少到仅以该字符串开头的那些单词；只要序列S1S2…。Sk产生了一个非空队列。一旦队列是空的，分割过程就从最后一个音节重新开始，即Sk。以英语中的can-dy-mel-ted(candy melted)为例，当音节can可用时，它会激活一个队列，其中包括单词can、candy、candle、canton、candid、cantaloupe、candidate、candyfloss等。一旦can-dy变得可用，队列就会减少到candy和candyfloss以及很少的其他单词；当添加下面的音节时，结果字符串can-dy-mel将产生一个空单词队列。然后，分割过程从最后一个音节(mel)重新开始。当应用于作者的俄语材料时，97%的单词边界被正确识别；不正确的识别被保留下来(即不是手动固定的)。

然后，由上述步骤产生的序列中的每个队列由其包含的单词的分布语义向量的频率加权和来表示。作者使用来自俄罗斯分布主题词表项目(Panchenko，Ustaov et al.,2017)中的向量，作者从公开可用的数据集(Panchenko，Arefyev et al.,2017)下载。作者在俄语图书语料库(130亿字)上训练了Skipgram word2vec模型(Mikolov et al.,2013)。在Skipgram word2vec模型中，训练具有单个隐藏层的神经网络以预测设定大小的周围上下文窗口内的每个单词的邻居(例如，在单词的左侧或右侧的5个单词内)。训练后，将词与隐含层连接的权重作为词的分布语义向量。训练采用skip-gram模型，隐含层有500个单位，上下文窗口大小为10个单词，重复3次。

分割程序被应用于每个参与者的序列(每种情况一个)。每个音节被映射到500维向量v，该向量表示在听到该音节时被激活的队列的分布向量。为了以与听觉呈现类似的方式表示音节流的时间动态(如在随后的实验2中)，将表示从音节开始的时间t处引发的激活的向量w(T)建模为背景噪声，其中v在时间τ ms之后出现(时间τ随机地从范围为40±25的均匀分布中提取)。对于每个维度i，以及对于1ms到320ms之间的每个τ(320ms是脑磁图实验中的音节持续时间)，激活计算如下：

其中，$$\varepsilonx_{i}(t)$$的正态分布情况为：μ=0，σ=0.1。

对于每个参与者和每个条件，上述过程产生了500×153,600个矩阵，其中153,600=60句×8个音节×320毫秒是每个序列的持续时间(毫秒)。

2.3 数据分析 ¶

仿真输出的矩阵沿时间维度进行傅里叶变换，只保留DC以上和5Hz以下的系数。然后，沿着500长维度对所得系数的平方取平均值，以计算每个频率段的平均功率。

为了量化功率谱中任何峰值的统计意义，作者通过将每个频率段的功率除以紧邻的四个频率段(每侧两个)的平均功率来计算信噪比(SNR)。平坦的频谱对应于接近于1的SNR。通过使用单样本单尾t检验比较归一化SNR是否显著大于1来检验每个频段的峰值存在。假发现率(FDR，Benjamini&Hochberg，1995)的显著水平为0.001。

2.4 实验结果 ¶

图3显示了属格2-2和与格1-3条件的模拟功率谱，并清楚地显示了音节、单词、两个单词和句子的频率以及它们的谐波的峰值。

图3：从分布语义向量模型模拟属格和与格条件下的平均功率谱。音节、单词、两词组合和句子对应的频率峰值用箭头标出。细灰线表示单个参与者的模拟。粉色或蓝绿色线代表所有模拟参与者的平均值。

作者使用配对样本双尾t检验比较了音节(3.12Hz)和词频(1.56Hz)在不同条件下的信噪比。由于名词2的属格形式和与格形式对应的分布语义向量的不同，音节峰值并无不同($$M{d}$$=-0.47，95%CI[-3.34，2.39]，t(11)=-0.36，P=0.723)；然而，由于Noun2的属格形式和与格形式对应的分布语义向量的不同，单词峰值确实有所不同($$M{d}$$=1.99，95%CI[1.51，2.48]，t(11)=9.04，P<0.001)。由于每个条件下单词峰值的幅度可能影响了SNR谱中较高的(2个单词和句子)峰值的幅度，导致与关键操作无关的差异，因此作者使用单词频率的SNR对所有SNR进行归一化。这是在对数空间中完成的，以将基线噪声信噪比保持在1(见公式(1))。

图4所示的归一化SNR在音节、单词、单词和句子频率以及它们的谐波的频率上与1有显著差异(P<0.001)。重要的是，属性词2-2条件下的词归一化2字峰值不大于属性词1-3条件下的词归一化2个词的峰值($$M{d}$$=0.05，95%CI [-∞，0.09]，t(11)=2.53，P=0.986)。

图4：基于分布语义向量模型模拟的功率谱计算归一化信噪比(SNR)，适用于所有格和给格条件。’ * ‘标记功率大于四个相邻箱的平均功率且经fdr调整的p值小于0.001的频率。与音节、单词、两个单词组合和句子对应的频率峰值被标记出来。细灰线表示单个参与者的模拟。粉色或蓝绿色线代表所有模拟参与者的平均值。

2.5 实验讨论 ¶

使用分布语义向量的模型显示，在与格2-2和与格1-3条件下，对应于2个词组合和句子的频率处的活动模式相似。因此，这对条件提供了一种情况，可以帮助分离神经跟踪是否可以通过仅依赖于词级统计的模型来解释，或者是否需要求助于分层句法结构。在前一种情况下，根据当前模拟的结果，在实验2中，对于人类参与者的两种情况，预计会有统计上无法区分的神经反应，最关键的是对应于两个单词组合的0.78Hz的频率。另一方面，从句法角度看，0.78Hz反应的差异是预期的，这对应于属格条件中短语的频率，而不是与格条件中短语的频率。

3.实验2：MEG实验 ¶

3.1方法 ¶

3.1.1 被试 ¶

根据顺序抽样计划，作者计划收集足够的参与者，以便对20名参与者的数据进行第一次统计测试。由于技术原因和招募程序，参与者被记录在最多6名参与者的区块中，该测试首先基于27名参与者的数据进行，作者还报告了如果作者按计划在20停止测试会显示什么，请参见结果下的脑磁图数据。作者总共收集了40名参与者的数据。在这40名参与者中，有6名因各种技术原因(参与者睡着、声音未被记录、数据根本未被记录等)而被移除，另有3名参与者因脑磁图数据中缺少触发而被移除。其他因数据而被排除在外的情况则展示在实验结果下的行为数据部分中。

3.1.2 材料 ¶

实验2的材料是实验1中使用的两个条件的60个句子集合的听觉版本。如前所述，这60个集合是通过听觉预筛选从一个更大的库中选择的，如下所述以及其他相关细节。

3.1.2.1听觉刺激的产生和预筛选 ¶

如表1所示，创建了64组所有格2-2和与格133条件，抄写成音节。然后使用MacinTalk合成器(俄罗斯女声Milena, macOS High Sierra版本10.13.6)合成每个独特的音节。

表1：用于对图2中的样本属格1-3(“Dina’s cook is making pancakes”)和与格2-2(“The cook is making pancakes for Dina”)条件进行听觉预筛选的样本关键和对照问题。每个问题类型的两个项以及每个条件的正确(;)和不正确(;)也都展示出来。

合成音节的开头和结尾的所有无声间隔都被删除了。这导致音节持续时间从200到550毫秒不等。然后，所有音节都被放慢或加快，以尽可能接近目标时长320毫秒(保留音高)。

精确的持续时间为320毫秒，是通过将产生的音节截断几毫秒或用几毫秒的沉默填充来获得的。听觉词由两个音节连接而成，没有任何间隙;句子是由4个单词连接而成的。每种条件下24次试验的刺激强度谱平均值如图5所示。值得注意的是，与Ding等人(2016)不同，作者的光谱在单词、双词和句子比率上确实有小峰值。然而，独立样本t检验显示，在双字率条件之间峰值振幅无显著差异(t(43.38)=-0.42. P=0.674,90% CI on Cohen’s d [-0 .61,0.36])。

图5：属格 2-2(粉色线)和与格 1-3(蓝绿色线)条件下24次试验的平均刺激强度谱

这种声学规律性并不会混淆MEG数据中2字速率峰值的比较。顺便说一下，其他三种频率的峰值也很相似：

音节率:t(41.42)=0.22,P=0.825,90%CI on Cohen’s d [-0.42,0.55];

字率:t(43.01)=-0.20, P=0.846,90% CI on Cohen’s d [-0.54,0.43];

句子率:t(40.38)=-0.51, P=0.612,90% CI on Cohen’s d [-0.63,0.34]。

听力句子的质量以及它们是否能被听者正确理解，在一组独立的、年龄为18-29岁的俄语母语志愿者(7女，4男)的预选中得到了验证，这些被试没有参加MEG实验。

对于64组中的每组，作者构造了三个问题:一个关键问题和两个对照问题。每个问题都有两个答案选项，在给定的试验中只有一个是正确的。所有的问题都用来测试句子的一般可理解性，而关键问题则专门评估参与者是否能正确地听到和解释关键名词(Noun2)的情况。控制性问题被添加进来，以增加参与者的可变性和预防策略，并确保参与者必须听整个句子，而不是只听关键名词。表1给出了图2中这组句子的问题。

在每次试验中，通过耳机听到一个句子，然后在屏幕上看到一个问题，并有两个回答选项。参与者被要求选择正确的回答。实验共计64对句子，分为3种类型，总共有64组×2个条件×3个问题=384个可能的试次。

参与者在一个隔音的小隔间里单独进行测试。实验总共收集了11名参与者的数据。前6名参与者接受了所有试验的一半(192个试验，平衡参与者)的测试。由于数据收集比预期的要快，剩下的5名参与者按照随机顺序被分配了384个试验。通过对参与者随机截距拟合混合缺陷逻辑回归，并基于拟合模型估计边际均值、置信区间和跨条件比较，对数据进行分析。对所有关键问题的综合估计的总正确率通常很高(87%，95% CI 81%-91%的参与者)，尽管在赋形条件下它更高(赋形条件的估计边际平均值:90%，属格:84%，优势比1.71,P=0.005)。准确率最低的三组句子(均为62%)被删除。第四组被移除了，其中包含一个被多名参与者在测试结束时汇报时注意到的难以理解的单词。其余60组条件对参与者的总体准确性为88% (95% CI 83%-92%)，并被用作实验1和实验2的刺激材料。

3.1.3 程序 ¶

研究人员记录了参与者在听时长为10句的等时语音时的脑磁图活动。每个条件中的60句话被随机分成6个试验，每个试验包含10句来自单一条件的句子。结果是共12个实验(6个属格和6个与格)组成了一个组块。每次试验都以每音节320毫秒的速度进行听觉呈现，音节之间没有任何停顿，也没有任何其他有关单词或句子边界的韵律分割提示。每个参与者重复该块4次(块之间有停顿);在一个区块内的试验的组成和试验的顺序是随机的每个区块和每个参与者。总的来说，有24个属格试验和24个与格试验。

在MEG实验中，为了尽量减少对听觉启动的诱发反应，在每次试验的开始/结束添加了渐入/渐出。为了创建它们，在24次试验中选择3句代表试验中未使用的相同条件的随机，并将其分成两半，即Noun1+Noun2和 Verb+Noun3。对于试验-初始渐入，对Verb+Noun3对应的4音节序列进行如下操作:(i)初始的0-1.5音节(准确的持续时间随机选择)变为沉默，(ii)随后的2.5-4音节的强度从沉默到原始水平线性增加，(iii)其余0-1.5音节的强度没有变化。该过程以镜像顺序应用于Noun1+Noun2序列，以在试验结束时创建渐出效果。包括渐入和渐出在内的10句长审判的总时间为25.6秒。

在每次试验结束时，会提出一个记忆任务。研究人员向参与者展示了屏幕上的一句话，让他们在“这句话在刚才播放的句子中”和“没有这样的句子”两种回答选项中做出选择，以判断这句话是否在实验中播放过。在每次审判结束时，参与者要对两句话作出选择。每次，该句子要么是在试验中出现的完整句子(例如，图6a中的Q1和图6b中的Q1和Q2)，要么是一个语法正确的新句子，由试验中出现的三个不同句子的单词组合而成(例如，图6a中的Q2)。

图6：一个MEG试验样本。从一个10句长的属格2-2和与格1- 3条件试验中选取两句长的选段，以及它们潜在的句法构成结构。问题Q1和问题Q2是每次试验结束时记忆任务的一部分。

在每次试验开始时，播放蜂鸣声(一个240毫秒长的菱形250Hz正弦波)作为试验开始的提示，然后是760毫秒的沉默，然后是试验序列的其余部分(渐入，10句相同条件的句子；渐出，记忆任务)。声音的音频被调整到每个参与者的舒适水平。

实验开始时，有3个试句(使用与实验句相似的附加句子)。然后，每个参与者接受了12组实验中的4组，每组之间有一个暂停。实验耗时约40分钟。

3.1.4 MEG记录 ¶

脑磁图(MEG)记录是在莫斯科脑磁图中心(莫斯科国立心理和教育大学校园)的磁屏蔽室中使用306通道神经磁图矢量视图(Elekta Oy，芬兰)完成的。

在录制过程中应用了0.1-330 Hz的在线带通滤波器。头部位置通过连接在受试者前额上方和耳后的4个头部位置指示器(HPI)线圈连续监测。使用Polhemus FASTRAK设备对HPI线圈和参考鼻部、左右耳廓前点坐标系的其他头部点位置进行数字化处理。采样频率为1 kHz。

3.1.5 MEG数据分析 ¶

数据采用A0.1-40 Hz带通滤波器分析。数据被分为23.04秒长的时间段，从第二句话的开头开始，到最后一句(即第10句)的偏移处结束。第一句被排除在外，以避免对每次试次的声学起始反应(如Ding et al.,2016)。

在接下来的步骤中，作者采用了基于空间滤波的去(Cheveigne & Simon, 2008)。该技术根据试验间的锁相重现性，将数据划分为与刺激相关的和与刺激无关的活动。正如Ding所述，作者使用了两次该技术:一次是在原始时间空间中去噪数据，一次是在频率空间中强调峰值。初始去噪采用以下参数:主成分分析(PCA)两次应用期间保留60个分量，诱发功率的比例解释为90%。然后将epoch数据傅里叶变换到频域，在频域中可以比较对应于不同语法单位的峰值。频率分辨率为1/23.04sec$$^{-1}$$=0.04 Hz。然后，作者再次应用基于空间滤波的去噪，使用Ding的公式(在线方法分段数据分析)对每个频率仓进行一次去噪。上述程序的结果表明，数据的空间维数从306(传感器的数量)减少到1，也就是说，每次试验都用一个频率索引向量表示。

3.1.6 排除标准 ¶

作者排除了那些在记忆任务中表现不佳的参与者，他们的显著性水平低于0.05。有96个问题(48个试验后每个问题2个)，这个标准对应的是正确答案少于56个。这是唯一的基于数据的排除标准。

3.1.7 统计分析 ¶

对于每一个参与者，在按照分项MEG数据分析中描述的数据处理后，作者采用以下步骤:

1.在每种情况下，分别对试验中每个频率仓的功率进行平均。

2. 然后将平均功率转换为信噪比。

3.用字率频率下的信噪比归一化，如式(1)所示。

4.取信噪比的自然对数得到logSNRs。

对于每个参与者，属格2-2和与格1-3条件下的双字词频率下的log-SNRs与边界为1/6和20的单尾配对贝叶斯因子(BF) t检验进行比较。引入边界的不对称是为了平衡假阳性和假阴性错误的概率(如Schonbrodt&Wagenmakers,2018;Weiss,1997)。检验的零假设是没有条件的影响，备择假设是有条件的影响，有一个知情的先验使用(一个移位和缩放的t分布)。

3.1.8 连续抽样计划 ¶

作者最初计划收集20个参与者，然后依次收集额外的5名参与者，直到作者得到贝叶斯因子小于1/6或大于20，或达到50的样本量。作者应用贝叶斯因子设计分析(BFDA, Schonbrodt & Wagenmakers, 2018)来评估该计划。结果表明，作者的计划有很高的概率能够证实假设正确。

3.1.9 确保结果可靠 ¶

为了测试作者的设置和数据收集的质量，作者计划检查所收集的数据中是否存在句子、单词和音节的峰值，即对应的非归一化SNR在0.01的显著性水平上均显著大于1。

3.2结果 ¶

3.2.1 行为数据 ¶

在因非数据相关原因排除后剩下的31名参与者中，还有4名参与者必被删除，因为他们给出的正确答案数量低于预先指定的阈值56个。其余27名参与者的正确答案在56-91之间，中位数为69。

3.2.2 MEG数据 ¶

句子、单词和音节峰值都出现在数据中，以确认数据质量(所有p <0.01，参见方法下的结果中性质量保证)。由于信噪比分布的右偏性质，使用非归一化信噪比的对数进行平均和测试。图7显示了来自几个有代表性参与者的信噪比谱(在属格 2-2和与格 1-3条件下收集)，并显示了在句子、单词和音节以及双词短语频率上的强峰值。

图7：几个有代表性的参与者的信噪比谱跨越了从最低到最高的信噪比在四个感兴趣的频率上的平均范围。功率首先在两种情况下的试验中取平均值。然后用每个频仓的平均功率除以两边相邻两个频仓的平均功率。

分别查看属格2-2和与格1-3条件的数据，四个峰值在个体和平均功率谱中再次清晰可见(图8)。一个关键的比较是gentive 2-2和Dative 1e3条件中的双词峰值(图9)。作者可以看出，对于大多数参与者来说，这两个条件在群体水平和个人水平上相似。

图8：个体参与者的功率谱(浅灰色)和他们的大平均值(粗线)。

所有四个预期峰值(句子、两个单词、单词、音节)在两种情况下均清晰出现。

图9：双词频率处的峰值可作为功率谱归一化信噪比的对数。两个垂直的盒状和须状图显示了属格 2-2(粉红色)和与格1-3(蓝绿色)条件下的峰值大小分布。黑线连接主题点(n=27)。

通过计划的one-tailed paired Bayes factor (BF) t-test，边界为1/6和20(见样本量估计)，应用于27个合格参与者的两种条件下的word-normalized log-SNRs，结果BF为0.009或约为1/112。因为这个数字小于1/6，作者认为当前的样本是最终的，并得出结论，在条件之间没有差异。（当分析前20个参与者的子样本时:BF为0.011或约为1/93)。

Unnormalized SNRs在句子、两个词、单词和音节率的另外描述在图10中进行视觉比较。

图10：四个单位(句子、双词、单词、音节)的频率峰值的比较，可操作为功率谱的信噪比。垂直盒状图和须状图显示了属格2-2(粉红色)和与格1-3(蓝绿色)条件下的峰值大小分布。

3.3探索性分析 ¶

3.3.1 地形图 ¶

此处提供了图8中标记的峰值的响应地形。作者在Ding之后进行的特定分析不允许在不同条件下比较峰值的地形。在频域中第二次应用基于空间滤波(DSS)程序的去噪，将数据的空间维数降至1。因此，峰值的响应地形可能只是大小不同，而不是在传感器上的分布不同。为了克服这个问题，作者在这里进行了稍微不同的计算:在最初的分析中，第二个DSS用于寻找用于跨DSS组件平均的最佳过滤器。

在此，作者首先计算了首次应用DSS后的功率谱，然后对两次的结果进行了平均试验和DSS组件来估计每个参与者条件组合的功率谱。这些单独的功率谱如图11所示(细线)以及每个条件的平均功率谱(粗线)。注意，峰值比图8要小得多，而且根本无法分辨出句子的峰值。

图11：首次应用DSS后个体参与者的功率谱(浅灰色)和他们的大平均值(粗线)。在这两种情况下，预期的四个峰值(双字词、单词、音节)中只有三个明显存在，句子峰值则没有。

然后，作者将第一个DSS转换反向返回到传感器空间，然后在试验中平均功率，以估计每个参与者条件下传感器组合的功率谱。之后将每个功率地形独立归一化，并对参与者的结果进行平均，以获得每个条件频率组合的一般地形的估计。interest的四个频率的地形如图12所示。

图12：在这两种情况下(属格2-2在前两行，与各1-3在后两行)和两种类型的传感器(梯度仪在奇数行，磁强计在偶数行)在四个interest的频率(列中)单独应用DSS后的功率谱响应地形图。注意，地形在不同频率和条件下几乎无法区分。地形在条件和频率上非常相似，这可能是DSS滤波的结果。Ding的结果也存在这种相似性。

4.讨论 ¶

在目前的研究中，作者使用俄语格标记创建了在单一音素(对应属格标记和与格标记)上不同的4字句子，这导致了句法结构的差异，但词汇语义特征上则无差异(Frank&Yang,2018)。属格2-2条件句包含两个双字词的组成部分:一个双字词的主语(例如，cook of-Dina)后面跟着一个双字词的动词短语(is making pancakes)。另一方面，在与格1-3条件中，主语是一个单词(如cook)，后面跟着一个3字词的动词短语(间接宾语、动词和直接宾语，如for dina is-making pancake)。当参与者听相同条件下的句子序列时，作者记录了他们的脑磁图，发现与音节、单词、句子以及两个单词对的频率相对应的谱功率峰值。根据先前的频率标注研究(Ding et al.,2016, 2017)，这些峰值反映了句子的句法结构，作者应该在属格2-2条件下观察到一个更大的双字词频率峰值，该条件以该速率包含了结构良好的句法成分。在属格2-2和与格1-3条件下，双字词峰值的功率没有差异。另一种可能的、可论证的、更简单的解释是，峰值是由Frank和Yang提出的刺激中的词汇-语义规律造成的。如图3所示，根据Frank和Yang的模型，作者的属格和与格条件在两个词的语速峰值处(以及音节和句子语速峰值处)并没有表现出可靠的差异。在人类数据中观察到的条件之间缺乏差异，这点符合此模型。

同时，作者要强调的是，作者的结果不应被视为为Frank和Yang的模型提供了强有力的支持，该模型是听觉句子理解过程中产生的EEG/MEG反应模型。该模型预测了在句子频率的谐波频率上的大峰值，而在MEG数据中不那么显著(对比图3和图8)。这表明，单是词汇语义属性可能不足以解释结果的完整模式。特别地，正如作者接下来讨论的，有人提出除了上述讨论之外的其他因素(即句法和词汇语义因素)也可能有助于句子理解过程中的EEG/MEG反应。

Glushko、Poeppel和Steinhauer(2020)注意到了韵律在句子理解中的作用，并认为Ding等人(2016)的发现可能强烈反映了韵律因素，即源于刺激的韵律属性。对于2-2句法条件下的句子，2-2分组是韵律上的默认，例如，(new plans |give hope)。同时，在1-3句法条件下的句子只能有1-3韵律分组(drink|lemon juice)，而不能有1-3韵律分组(drink le- | mon juice)。因此，在关键的2-2和1-3条件下，韵律组合与句法结构平行。尽管Ding等人(2016)明确地中和了韵律线索，但已知听者会激活隐蔽的、内隐的韵律(Glushko er al.,2020)的先前研究证明了这一点)。因此，Ding的发现也可以用韵律来解释。Glushko通过比较2-2条件和新的1-3条件来测试这种替代方法，在这种条件下，韵律分组为两个双字词词块是合理的，例如，(John likes|big trees)。和目前的研究一样，这个新的1-3条件下的双字峰值与2-2条件下的峰值没有区别，这与Ding的句法解释相矛盾。

作者的研究和Glushko的研究都采用了Ding的2-2和1-3条件。这并非巧合:1-3是一个关键的对照条件。如果没有它，就无法判断2-2条件下的双字词峰值是否与短语有关。事实上，可以认为，最大的有意义的块(在2-2条件下的句子)不仅在相应的频率上产生峰值，而且在其谐波上也产生峰值。Ding通过将2-2句法结构改为1-3句法结构，然后在双字词的频率处没有观察到峰值，驳斥了这一论点。Tavano等人采用了一种不同的方法来区分短语级别的峰值和较慢(句子)节奏的谐波:他们采用了除2-2和1-3结构外还有2-3和3-2结构的句子。Tavano对目前的讨论至关重要，他们没有发现2-2和1-3条件之间的双字词峰值有任何差异。尽管他们的研究结果无法区分词汇语义和韵律解释(因为这不是研究目标)，但他们的研究结果显然与句法解释不一致。

在作者的研究中使用的记忆任务不需要语法处理，不同的任务可以产生更强的语法反应，对此，作者认为适当的句法任务将提高听者进行句法处理的程度，这可能会影响脑磁图谱反应，从而影响一般结论。可以说，作者的记忆任务可以只在单词序列的基础上解决，而不涉及语法。然而，作者指出，他们的记忆任务是按照句子来制定的(例如，“This sentence was among the ones just playede yes/no”)，而构建一个句子需要建立(组)词之间的句法关系。因此，作者认为任务差异不太可能是Ding的研究与当前研究结论存在差异的原因。Ding对中国参与者的任务是检测包含语法正确但语义不可信的句子/短语的异常试验。他们针对英语参与者的任务要求发现语法形式不良和语义不合理的异常值。和作者的记忆任务一样，这两种变体都需要在(组)词之间建立句法关系。Ding的任务与作者的记忆任务不同的是，评估句子/短语的合理程度在本质上很大程度上是语义的。

总之，作者的研究结果并不支持Ding等人提出的频率峰值的句法解释。

作者得出如下结论：在本研究和其他研究中使用的频率标记范式并没有成功地分离句法结构，而且受到了其他因素的影响，例如韵律和词汇语义。

这一结论具有重要的现实意义，即频率标记数据不能作为发育研究或患者临床研究中句法处理完好或受损的特定标记。