口语理解过程中的神经机制对短语和句子的不同的编码



文献:Bai, F., Meyer, A. S., & Martin, A. E. (2022). Neural dynamics differentially encode phrases and sentences during spoken language comprehension. PLoS Biology20(7), e3001713. https://doi.org/10.1371/journal.pbio.3001713

1. 研究背景 ¶

以语言的声学特征为单位的结构与根据句法特征划分的具有意义的语言结构不同,语音的理解也是听者基于语言学知识对听到的语流划分为语言结构。许多理论认为,语言结构是通过内生推理过程构建的。近来有研究探讨与语言结构相对应的大脑的节律以及空间的神经活动情况,但是大脑如何编码以及区分句法结构仍不清楚。因此,哪些神经读数与追踪在物理与时间上相近的语音到两种不同抽象结构(短语与句子)的转换有关。这像大脑对受到的刺激进行计算的现象,为了更好的了解这种计算机制,首先要知道与哪些神经读数相关。本研究调查了大脑对微微不同的语言结构的反应,像短语“the red vase”与句子 “the vase is red.”。通过最小化两种结构在声学、时间、频谱和语义上的差异,来调查神经活动的哪些方面区分了这些短语和句子的结构。

2. 本研究 ¶

本研究调查了低频神经震荡是否反映了句法结构的差异,严格控制实验材料的物理及语义特征,扩展丁鼐等人2016年探究1Hz的神经反应是否可以被分解以反映独立的句法结构。使用两种荷兰语语音刺激,比如短语“De rode vaas”(The red vase)和句子“De vaas is rood ”(The vase is red.),短语与句子在音节数(4个音节)、语义成分、持续时间(1s,采样率44.1 k Hz)、总体能量(均跟方值16dB)方面都匹配。为了实现句法结构的差异,按照荷兰语语法,语素差异是不可避免的。本研究中引入这些符合句法规则的差异,同时使它们从统计学的角度使言语刺激在能量上和时间上不可区分。但是语素形成不同的句法结构的必要性表明,在像荷兰语和英语这样的语言中,语素和句法信息完全分解是不可能的。研究假设低频神经振荡对短语和句子之间的句法结构差异很敏感,但是不把分析局限于低频的能量和相位,并假设短语和句子神经反应的差异可能在多个维度上表现出来。

因此,本研究又采用了另外方法来分解对短语和句子的神经反应,以解决以下5个问题:

在功能神经网络水平上,短语和句子对大脑动力学有不同的影响吗?即句子作为一个结构单位的功能会引起更多的连通性或相位同步吗?

短语和句子涉及大脑相关区域的强度相同吗?Power connectivity可以用来根据在执行认知任务期间消耗的能量来描述功能性神经网络。Power connectivity是对不同的底层大脑区域通过时间-频率空间中诱导的神经反应的强度进行连接的测量。Power connectivity的差异意味着短语和句子对涉及言语和语言理解的神经网络的分布和强度有不同的影响。因此,短语和句子之间的句法结构差异是否会反映在有组织网络的神经活动中,特别是句子是否比短语产生更多的Power connectivity。

短语和句子对低频和高频活动之间的耦合有不同的影响吗?这个问题与Giraud 和 Poeppel的言语感知神经机制的理论模型有关,该模型侧重音节水平的加工,表明语音刺激的呈现首先在低频(低于8 Hz)下引起固有的神经反应以追踪语音包络,并以此构建音节的神经表征。然后,低频神经反应激发较高频率(25到35 Hz)的神经反应,这反映了大脑对音素级别信息的分析。该模型提出低频和高频神经反应(分别为θ和γ)之间的耦合作为到音节层级的语音感知的基本神经机制。因此θ-γ频率耦合是否也可以区分更高层次的语言结构,即短语和句子。

短语和句子在较高频率(如α波段)下对神经活动的影响是否也有所不同?α波段振荡在感知和记忆中的功能引发了广泛的争论,尽管低频神经活动在语言处理中的作用是毋庸置疑的,但是α频段的活动是否有重要作用还没有确定。α频段活动与言语工作记忆和听觉注意相关,有一些研究人员认为,α波段的活动反应了语言可懂度。因此该研究探讨了短语和句子是否会引起α频段活动的差异。

在“模拟出”物理差异后,短语和句子的差异编码能获得证据吗?对短语和句子的神经反应包括语言结构构建和处理听觉刺激的混合过程。可以通过模拟神经反应的哪些方面对声音信息进行编码,然后在神经活动的剩余部分检测短语和句子之间的差异,从中回归出声音差异。频谱-时间反应函数(STRF)表明,低频神经反应代表了语音中的声学特征,并且音素级别的处理反映在语音的低频诱导中。本研究也使用STRF来研究神经反应的哪个维度反映了短语和句子之间的差异。

总之本研究探讨了对短语和句子口语的不同维度的EEG反应。观察短语和句子之间的差异可以更好地发现形成句法结构背后的神经计算理论,并为与语言理解期间的结构构建相关的神经读出理论奠定基础。

3. 研究方法 ¶

共15位右利手的荷兰语母语者参与实验,22至35岁,其中有7名男性。

从标准化的语料库中选取了50幅常见物体的线条画,所有物体的荷兰语名称都是单音节的。实验中,物体在灰色背景上以彩色线条出现,并用5种颜色展示了每幅线条画:蓝色、红色、黄色、绿色和紫色,因此共有250张照片。对每个选定的线条画,创建一个4音节的短语-句子对,例如De rode vaas (红色的花瓶)和De vaas is rood (花瓶是红色的),实验中共有100个语音刺激(50个短语和50个句子),通过统一的合成器合成,持续时间为773 ms到1125 ms。

所有的听觉刺激标准化到采样率为44.1 kHz,所有的语音刺激都通过截断或两端补零调整到1000 ms,通过余弦波平滑每个刺激两端的10%,以消除声音突发,每个语音刺激强度的均方根(RMS)为-16dB。下图a,b展示了短语和句子的句法表征,所有的短语和句子的结构都相同,以De rode vaas (The red vase) 和 De vaas is rood (The vase is red)为例进行语法分解,两种情况下的输入都为4个音节。下图c,d展示了样本短语和句子的频谱图,有相似的时间-频谱模式。下图e显示的是样本的时间包络,蓝线代表短语,红线代表句子,表明短语和句子之间的能量波动相似。下图f显示了样本对在每个频率段上的强度关系,表明它们的声学特征相似。图g表明短语和句子之间的能量分布在时间维度上有很高的相似性。图h计算表明没有发现短语和句子之间显著物理差异的证据。 这些分析就是为了表明短语和句子的差异不是由声学特征所引起的。

图1

500ms+注视,1000ms的语音刺激(短语或句子),3s静默,然后通过指数(1,2,或3在屏幕中显示500ms)要求被试完成三种任务中的一种,指数1代表第一类任务,即语言结构辨别任务,通过按键反应来判断是短语还是句子;指数2(第二类任务)在1000ms之后呈现一个图片(200ms),要被被试判断语音刺激中的颜色是否与图片中的颜色匹配;指数3(第三类任务)与第二类任务相似,要求被试判断语音刺激中的物品是否与图片匹配。通过端口反应盒记录所有的反应,每个反应之后是3~4.5s的静默时间。先进行几次模拟实验以确定被试了解实验任务。

图1

4. 结果 ¶

下图2a的拓扑图表示的是短语的平均相位一致性减去句子的平均相位一致性的活动,这表明低频相位一致性能够很好的区分短语和句子。并且句子的低频相位一致性高于短语,因此,低频相位一致性可能有助于理解句法信息。鉴于之前的分析表明短语和句子在声学上无差异,那么相位一致性差异可能反映了通过神经集合的内源性募集形成或加工句法结构的过程。

图1

如下图3a所示,短语平均连接度减去句子连接度的结果表明,短语和句子在连接性上表现出显著差异,该效应对应于在语音刺激开始后从大约1800 ms延伸到大约2600 ms的群,下图3b表示相位连接度的时间-频率分解,左边为短语,右边为句子,可以看出差异效应主要位于非常低的频率范围(约< 2 Hz)。下图3c表示句子的平均矩阵表征减去短语的平均矩阵表征,连接度差异主要在额叶-中央区。下图d显示了阈值相连接的模式,黑色三角形代表种子传感器,上面表示短语,下面表示句子,显示了每种条件下相位连接(同步)在头皮上的分布情况,可以看出句子条件下的相位连接的整体程度比短语条件下的更强。因此,在低频范围(约< 2 Hz)的传感器空间上的相位连接度可以很好地分离两种句法不同的刺激,并且这种效果在右后区最显著。

图1

为了评估相位振幅耦合(PAC)能否区分短语和句子,研究计算了每个条件下每个相位振幅仓的PAC值,然后将其转换为PAC-Z,结果为4 Hz至10 Hz范围的相位频率有强激活,15 Hz至40 Hz范围内的振幅频率有强激活,为高频振幅(15 Hz至40 Hz)中夹杂着强烈的低频相位(4 Hz至10 Hz)反应。分析结果显示短语和句子之间的PAC-Z没有显著差异,即没有证据表明PAC与句法信息处理有关。因此,PAC可能是语音感知的广义神经机制,而不是在高级语言结构处理过程中专门的机制。

为了探究α波段的神经振荡是否反映了句法结构的处理,计算了诱发功率。感应功率的总平均值在α波段(约7.5至13.5 Hz)显示出强烈的抑制。对α频段的频率进行统计分析表明短语条件下的α频段的抑制比句子条件下的强,并且该效应主要对集中于左半球。下图5a表示以50毫秒为步长该聚类的时间演变,短语条件的诱发功率减去句子条件的诱发功率。下图5b表示短语和句子感应功率的时间-频率图,可以看出,短语条件下α频段的抑制比句子条件下的更强。这些结果表明对短语和句子的加工反应在α频段诱发的神经反应的强度上。

图1

研究计算了每个传感器对应时间-频率的power connectivity,在音频开始后100 ms至2200 ms,power connectivity在α波段显示出强烈的抑制,该区域被定义为ROI,对每个被试的大脑半球选择8个显示最大抑制的传感器,下图6a显示了每个条件下参与者的平均power connectivity度。统计分析表明,短语的power connectivity抑制比句子的更强(如下图6b所示)。图6d显示了使用二进制化句子连通性矩阵的平均值减去二进制化短语连通性矩阵平均值的传感器空间上的power connectivity程度的差异,结果表明对短语的功率连接抑制比句子更强,也就是说句子的整体能量连接水平高于短语。图6e表示的是power connectivity的地形图,可以看出差异主要在双侧中央区域,并且左半球比右半球更明显。因此,α波段power connectivity表明短语和句子网络层级的分离。

图1

先前的研究表明,低频神经反应反映了语音声学特征的phase-locked编码,本研究测试了所有规范频段的神经反应是否可以同等程度的反映声学特征的编码。与之前的研究一致,STRFs(Spectro-Temporal Receptive Field)的性能仅在低频(delta和theta)高于机会水平(下图a)。证实了低频STRF反映了语音的声学特征和低频神经反应之间的关系。下图b展示了每种条件下的STRF性能,配对样本t检验没有发现两种情况下的性能有差异,这个结果表明STRF对短语和句子的适用是同等的。图c展示了样本传感器Cz处真实神经反应和模型预测反应之间的比较。图f展示了所有参与者的TRF,所有TRF的总体平均值显示约100ms和约300ms处有两个峰值,对幅度和潜伏期进行刺激型-峰值型-半球三向重复测量方差分析。对于TRF的振幅,统计比较显示了刺激类型的显著主效应(图g)和显著的三向刺激型“峰值型”半球交互作用。使用成对样本t检验对刺激类型的主要效应进行事后比较表明,短语的振幅明显大于句子。这一结果表明,与对句子的反应相比,对短语反应的瞬时神经活动对声学特征具有更强的phase-locked依赖性。在峰型的每个水平上对半球因素和刺激型因素进行两次双向重复测量ANOVAs和Bonferroni校正,结果表明在第一个峰上存在刺激类型的主效应,在第二个峰上存在双向半球刺激类型的交互作用。在第一个高峰,使用配对样本t检验对刺激类型的主要影响进行了事后比较,结果显示短语条件的振幅高于句子条件的振幅。这表明,与呈现句子时相比,呈现短语时约100ms前呈现的声学特征更强烈地驱动了瞬时神经活动。对于第二个峰处的双向半球刺激型交互作用,进行了Bonferroni校正的成对样本t检验,结果表明,在短语条件下大脑右半球在声学特征呈现300ms时的即时神经活动比在句子条件下的强。

图1

图i显示了所有参与者的平均SRF,STRFs的总体平均值表明,内核的激活在0.1 kHz到0.8 kHz的频率范围内最为显著。为了比较在频谱维度中声学特征的神经编码的差异,将SRF分成3个频段,其低于0.1 kHz、0.1到0.8 kHz和高于0.8 kHz。采用三向重复测量方差分析对半球、刺激型和频段类型进行统计比较。结果如图7j所示,表明频段类型主效应和频段类型与刺激类型的交互作用。

使用Bonferroni校正的成对样本t检验对波段类型的主要影响进行事后比较,结果显示,中频段的幅度强于低频段和高频段的幅度。因此,不同频段的声学特征对诱发的神经反应有不同的贡献。也就是说在这两种情况下,神经反应主要由0.1 kHz到0.8 kHz的声学特征编码驱动,即第一共振峰范围内的频谱-时间特征。使用成对样本t检验和Bonferroni校正对频段类型和刺激型相互作用进行事后比较表明,仅在中频段,短语条件下的SRF振幅比句子条件下的SRF振幅更强。这表明,在中频范围内,比起句子,单独通过模拟声学特征的编码更强烈地预测短语的神经反应。这种结果模式表明,句子的神经表征更多地从由物理性刺激驱动的神经反应中抽象出来。

5. 总结 ¶

在此研究中,通过最小化语言结构在声学-能量/时间-频谱轮廓和语义成分上的差异来研究神经对语言结构的反应。研究了神经活动的哪些维度区分短语和句子的句法结构,并使用一系列分析技术描述对短语和句子之间的独特语言结构敏感的神经读出维度。探究短语和句子是否对功能连接有不同的影响,首先发现虽然短语和句子招募相似的功能网络,这些网络的参与度随语言结构而变化。与短语相比,句子表现出更强的相位一致性和能量连接性。这种模式表明,短语和句子对参与言语和语言理解的神经网络的分布和强度有不同的影响。第二,研究发现θ和γ之间的相位-振幅耦合,这种耦合与语音处理有关,对语音中的结构差异不敏感。第三,研究发现α频段对语言结构很敏感。最后,通过使用STRFs对刺激和大脑反应中的声学波动进行建模,发现短语和句子不同程度地依赖于大脑中声学特征的编码,并且句子更远离大脑反应中的声学动力学。