显性和隐性韵律调节之前归因于句法加工的神经生理反应



文献:Glushko, A., Poeppel, D., & Steinhauer, K. (2022). Overt and implicit prosody contribute to neurophysiological responses previously attributed to grammatical processing. Scientific Reports12(1), 1-18. https://doi.org/10.1038/s41598-022-18162-3

1. 研究背景 ¶

那些试图证明大脑分层表征语音结构的研究通常使用了很不自然的语音或任务,或者是从错误句法处理中推断神经认知分析机制,这些工作产生的数据结果经常可以用语义处理或韵律处理来解释,它们与句法处理并行,但又不同。丁鼐等人(2016)的发现排除了一些解释,其中一种韵律:他们排除了显性韵律(即超音段特征,包括句子韵律和重音)对结果的影响,尽管如此,丁鼐等人的发现仍然受到隐性韵律的影响。隐性韵律指的是在默读过程中被潜意识激活的韵律表征(节奏、焦点等),有时被称为“内心声音”。有研究证明在语音感知中,当明显的韵律线索被人为地从刺激中移除时仍存在隐性的韵律,那么隐性韵律特征可能在引发这种神经反应模式中发挥的作用?

丁鼐等人使用频率标记范式证明层级结构驱动了语音加工过程,在听等速(4Hz)播放的汉语普通话时,英语母语者中也观察到了4Hz的频谱峰,证明了这种“自下而上”的皮层节律是由4Hz的声音信号音节率(包络追踪)引发的,与语言理解无关。然而当汉语和英语母语者听他们各自四音节的母语(2(NP)+2(VP))时,脑磁图呈现了另外的1Hz(对应句子频率)和2Hz(对应短语频率)的峰值。这两种低频效应并不与语音信号中的任何声学节奏相对应,因此,这个结果反映了由认知驱动的“自上而下”的与理解和构建语言结构相关的大脑活动。这个解释得到了另外条件的支持(仅汉语),即当刺激材料变成1+3的句法结构时,2Hz的峰值就消失了。因此,丁鼐等人为在线语音加工中的皮层自上而下机制提供了强有力的证据。

但是,有另外几种解释。隐性韵律处理是另一种自上而下的机制,已被证明在实时句子处理中发挥重要作用,也就是说,韵律处理并不局限于由语音信号中明显的声学线索自下而上的机制驱动。人们发现读者在无声阅读时会系统地激活隐性韵律模式,比如将单词组合成短语的韵律边界。例如,英语、德语、韩语和汉语普通话的脑电(EEG)研究表明,跨语言的听者和读者都引发了对韵律短语的特定大脑反应(即闭合正向转移,或CPS),而不论这种短语模式是由语音信号中明显的韵律线索诱发的,还是在无声阅读中使用视觉信号和其他隐晦的触发因素,这些读者中CPS的大脑反应是由标点符号(如逗号)、要求参与者在默读句子时想象特定位置的韵律边界的指令触发的。类似的CPS发现也反映了韵律自上而下的机制,在语音处理中也有报道,特别是在没有明显的韵律线索的情况下。这种自上而下的韵律分组往往反映了读者或听者最初的句法分析,因此心理强加的韵律短语可能直接对应句法短语。这种情况下,人们可能会认为,与韵律短语相关的大脑反应仍然是由句法过程驱动的,并最终依赖于句法过程。但是,句法和韵律并不总是一对一的映射,非句法因素也在韵律边界的产生中发挥着重要作用,短语长度、语义连贯性和信息结构线索会导致韵律中断出现在没有重大句法中断的位置。

因此,一个给定的句法结构往往与多个不同的韵律组兼容,而一个给定的韵律结构可能适用于多个句法结构。例如,句子“(John)NP((likes)(big tree)NP)VP”有1 + 3的句法结构,单音节主语“John”后面跟着一个由3个单词组成的“VP”(由动词“likes”和宾语“big tree”组成)。然而,在韵律上,2 + 2分组 (John likes | big trees) 是完全可以接受的,并且能够通过创造两个相同长度的韵律短语来满足韵律“对称”约束。因此,这样说的话丁鼐等人研究中使用的2+2(NP+VP)结构的句子存在句法与隐形韵律因素的混淆,因为句法边界与韵律边界高度重合。而丁鼐等人研究中使用的1+3结构,是由单音节动词短语+3音节宾语组成 (炒丨西红柿” , “喝丨龙井茶 ”) ,这与韵律边界不相符,因为这种情况下2+2划分韵律边界会分离同一个单词中的音节(比如,“炒西丨红柿”; “喝龙丨井茶”),并且这是词汇上的原因而不是句法上的原因。在这两种类型的句法结构中,句法分组与韵律分组刚好相同。因此,丁鼐等人研究中在短语边界观察到的峰值可能是由重合的韵律短语引起的。并且在所有情况下,整个4词的话语对应于最大的韵律组(所谓的“语调短语”),从而提供了一个韵律导致的句子级别的1Hz峰值。韵律和句法处理都可以解释丁鼐等人观察到的神经生理峰值出现在边界位置。

当涉及到频率标记研究时,隐性韵律短语的概念变得尤其相关,在这种研究中,句子通常以一种封闭的设计呈现,例如,一个给定的trial中,12个句子要么只包含2 + 2的句子,要么只包含1 + 3句子。这样,听者可以在前几个句子中迅速形成一个隐性的韵律模板,然后将这个模板应用到trial的其他句子中。鉴于丁鼐等人材料中句法和隐蔽韵律短语之间的潜在混淆,他们的句子(1 Hz)和短语(2 Hz) 峰值可能并不完全反映句法结构的层次,至少在某种程度上反映了隐性韵律的分组。

即使丁鼐等人的工作中出现频率峰值最终归因于分层句法处理,重要的是要知道(1)与句法相关的大脑加工本身是否被这种测量方法所追踪,或(2)分层语言结构的皮层追踪通常是由内隐韵律的激活介导的,因此依赖于内隐韵律的激活,或者可能是(3)句法和韵律短语在频率标记过程中都有不同的峰值。要区分这三种说法,首先要理清句子材料中的句法和韵律结构;第二,可以通过操纵韵律信息的存在与否,以及句法或韵律任务的要求;第三,在数据分析中,还应观察头皮频率峰值分布的电势差。一些初步的证据表明,句法和韵律加工可能是由不同的神经回路在大脑中不同地影响脑电图效应。一方面,句法似乎与大脑左半球的结构联系更紧密,而韵律则与大脑右半球联系更紧密;另一方面,句法处理通常被认为涉及Broca区以及背侧流和颞叶结构,右侧前回路负责韵律感知,左侧前回路负责韵律产生。并且,由于韵律的左半球和右半球环路都位于前部结构中,它们对频率峰值的贡献可能比句法短语的贡献有更多的前额分布。本研究试图用这三种方法来消除韵律和句法分层表征解释的混淆。

2. 本研究 ¶

为了验证隐形韵律对句法处理的1Hz(句子水平)和2Hz(短语频率)峰值的贡献,此研究使用德语句子材料进行了一项EEG实验,以消除句法和韵律短语的混淆。也创建了句法结构为2+2和1+3的句子,不同的是1 + 3句法条件仍然与2 + 2韵律组兼容。在第一个隐性韵律条件下,采用了丁鼐等人的范式,即等时呈现不含显性韵律线索的句子。研究预测,如果句法是导致句子和短语峰值的唯一因素,那么1 + 3句法条件应该重复他们原来的发现,而不是诱发短语频率的峰值(如下图1a);如果涉及隐性韵律,1 + 3句法条件可以引出句子和短语(½句)的峰值(如下图1c);此外预计,在显性韵律和指导韵律条件下,创建的W24韵律轮廓会与两种句法结构(分别为2 + 2和1 + 3)产生不同的交互。这些W24韵律轮廓应用于隐性韵律条件下的句子,通过调节听觉句子材料,或者通过指导参与者在听没有明显韵律线索的句子时想象一个特定的韵律轮廓。预期显性韵律和指导韵律操作在2 + 2句法结构的句子中至少会增加短语频率峰值,而在1 + 3句法结构的句子中则不会。这种差异模式将反映句法和韵律加工之间的相互作用。

图1

3. 方法 ¶

26名被试参与实验,19~45岁,15名女性,11名男性。

材料中使用的句子是由合成器逐词合成的,所有的单词都是单音节的,长度为320ms。每个词的音高(以及整个句子的音高)被调平,在Praat中将音强标准化为70dB。共组成80个语义上合理和24个语义上不合理的句子,12个句子组成一个trial(48个单词)。语义上不合理的异常的句子是由两个语义上合理的句子重新组合而成,这些异常句子作为监测任务的目标。每个句子在每个block中重复8~9次,每次试验持续15.36 s(12句× 4词× 320 ms)。

句子的句法结构有两种。在2 + 2句法(40个句子)的条件下,每个句子由两个长度相等的NP和VP组成;在1+3句法(40个句子)条件下,句子由NP(一个词)+VP(三词组成)。两种句法结构中,每隔1.28s(4个单词)出现一次无声学标记的句子边界,频率为0.78Hz;每320ms出现一个单词,频率为3.125Hz;但是只有2+2句法条件下,短语以1.56Hz(每640ms)的恒定频率出现。

句子和假设的韵律操作。由上述具有中性韵律的单词连接起来的句子构成了内隐韵律条件(ImplP),与外显韵律(OvP)和指示韵律条件(InstrP)的数据进行对比。韵律操作的总体想法是创造出有选择地支持一种句法结构的韵律模式(如2 + 2),同时与另一种句法结构相冲突(如1 + 3),这里通过在 Matlab 中合成人工的音高和音强的轮廓,将这种韵律轮廓加在 ImplP 条件下的句子上,以创造了OvP条件(如下图2)。

图2

OvP条件下,声强和音高的最大值出现在单词2和4(W24 轮廓),将W24轮廓应用于所有2 + 2和1 + 3句法结构的句子,W24韵律轮廓与2+2条件下的句法对齐。并预测句法-韵律对齐(2 + 2句法)的条件下½句子频率脑电反应会增强,并且这种效果比在1+3条件下的更强。因为,W24 韵律轮廓与句法1+3的分组不对等,因此可能会看到由于参与者以他们自发的方式表达句子的能力受阻,句子频率大脑活动降低。这种观点基于以下假设:(1)与自上而下的结构追踪相关的频率峰值完全由句法短语驱动,(2)句法和韵律分组必须对齐。研究认为以上两种预测可能都是错误的,因为隐形韵律可能确实会导致自上而下的峰值,但是2+2韵律也完全符合本研究中的1+3句法结构的句子。因此,造成韵律对不同句法结构句子加工效果差异的第二个因素是句子默认“自发”韵律轮廓与我们人为创造的韵律轮廓之间的相互作用。虽然W24韵律轮廓原则上应该与1 + 3句法句子一样兼容,但由于1 + 3句法的峰值的本质不同,研究预计1 + 3句会受到更大程度的干扰。与2 + 2句子不同,在1 + 3句法句中,只有自发的内隐韵律短语(而非句法短语)能引出½句峰值(ImplP条件下),潜在的隐性韵律轮廓更有可能与W24操作强加的人工韵律轮廓不相容。两个冲突韵律轮廓之间的竞争,预计将减少而不是增强1 / 2句峰值振幅。总之,他们预测韵律操作会对两种句子类型产生不同的影响,并通过相关频率峰值的振幅产生一种韵律交互的语法。

被试在戴电极帽的过程中完成调查问卷,之后熟悉实验中的刺激:首先实验人员告知被试,实验中听到的语音刺激是人工合成的并且语速较快,为了避免实验中有听不懂的句子,被试有机会看所有句子的列表,然后完成句子可懂度任务。这个任务让被试先听句子,每个句子最多听两遍,然后再输入他们听到的内容。这个任务能了解被试是否能听懂句子。然后开始主要的EEG实验。

每个被试一开始都是进行内隐韵律测试,这些测试为他们的1 + 3和2 + 2句子的句法处理,以及潜在的为他们默认的内隐韵律短语建立基线;之后为被试呈现OvP和InstrP条件;在研究结束时,再呈现一次ImplP条件(随机trial顺序与实验开始时不同),以控制ImplP条件与其他条件之间可能的句子熟悉度差异,以及研究过程中被试疲劳程度的变化,最后对两次ImplP条件的数据进行平均。

在隐式韵律条件下,参与者听了30个含有中性韵律的trial(22个没有,8个有语义异常)。在每个trial之后要求被试通过按键判断刚才所听的trial中是否包含不合理的句子。在Overt 和Instructed Prosody条件下,trial是成对呈现的,被试先听12个句子,这些句子都有相同的句法结构和明显的韵律轮廓(比如,1 + 3句法与W24轮廓)。在这个Overt Prosody trial之后紧接着是包含12个句子的Instructed Prosody trial,这些句子与刚才的Overt Prosody trial有相同的句法结构,即1+3,但缺乏相应的韵律轮廓(类似于ImplP)。在进行Instructed Prosody trial时要求被试在心里想象刚才在OvP trial中听到的韵律模式(即W24),即要求被试在处理句子的同时施加一个隐性的韵律轮廓。将这些trial的EEG信号与内ImplP条件进行比较,可以发现显性和隐性韵律对峰值激发的影响。

图3

4. 结果 ¶

EEG在1 + 3和2 + 2句法中单词、句子和½句子频率处有明显峰值(下图c,d)。根据句法模型的解释只能预测2+2句法条件下的½句子频率的峰值,然而1 + 3句法条件下的½句子的EEG峰值也是显著的,甚至发现比2 + 2条件下略大。在另一组只参加了隐形韵律测试更大的被试群体(N = 36) 中也发现了这一结果。因此,本研究人员推测在1+3句法条件下,至少½句子的EEG峰值可能是句法加工以外的机制引起的,被试可能在1+3句法的句子中间放置了一个隐性的韵律边界。

图4

他们进一步分析了ImplP状态下不同句法脑电图峰值的头皮分布来验证这一假设,发现,1 + 3句法组的1 / 2句子峰值比2 + 2句法组的1 / 2句子峰值头皮后部分布更少。这些发现表明,两种句法条件下的½句子EEG峰值是不同性质的。

下图5展示了在句法韵律对齐情况下ImplP和W24韵律轮廓(OvP 和InstrP)的比较,上排展示的是语音信号的声强谱(a,b),下排是脑电信号的频谱(c,d)。可以看出被试在OvP 条件下的2+2句法的句子和1 / 2句子频率峰值比ImplP和InstrP条件下的大。

图5

下图展示的是韵律不对齐情况(1+3句法)下ImplP和W24韵律轮廓(OvP 和InstrP)的比较,可以看出1+3句法在OvP条件下的EEG在句子频率的反应小于 ImplP条件,并且1+3句法在InstrP条件下也有类似的抑制。直接比较OvP 1 + 3和2 + 2句法句子,发现2 + 2句法句子在 ½ 句子和句子频率的峰值都更大;而InstrP条件下两种句法只在句子对应频率的EEG有显著性差异。

图6

OvP和InstrP条件下的EEG数据如图5(2 + 2句法)和6(1 + 3句法)所示,与 ImplP条件下一样,两种句法条件在句子和½句子频率处有明显峰值。并发现在OvP、InstrP和ImplP条件下有头皮分布的差异。在2 + 2句法条件下,1 / 2句子频率的脑电图功率峰值分布更靠后;1 + 3句法组1 / 2句子频率的脑电反应分布更广,与2 + 2句法组相比后区脑电反应更小。并且发现叠加W24韵律轮廓对2 + 2诱发的脑电图波峰与1 + 3句法有不同的影响。

5. 讨论与总结 ¶

本研究利用三种实验条件,研究了显性和隐性韵律如何调节神经对语言短语和句子的反应。三个实验条件的证据都表明:(1)1 + 3句法在没有句法韵律边界的情况下始终能诱导出一个½句子的峰值,(2)通过语音信号的声学操纵显性地和通过指令隐性地添加W24韵律轮廓对2 + 2句法结构和1 + 3句法结构的峰值有不同的影响。因此,低频率的皮层活动追踪显性和隐性韵律变化,这种追踪与句法处理相互作用,即自上而下的句法处理(2 + 2句)和自上而下的韵律分组(1 + 3句)都对语音加工有影响。本研究认为尽管2+2句法条件下一部分受隐形韵律调节, ½ 句子频率峰值仍一定程度上反映了自上而下句法加工。而1 + 3句对应的峰值完全来自于听者自发的内隐韵律分组。句子条件之间的这种定性差异进一步得到以下因素的支持:即2 + 2句子比1 + 3句子中½句子峰值的后头皮分布明显更多,如果两种句法条件反映了相同的认知过程,那么地形图就不会有差异。因此把EEG和MEG功率峰值归因于其他认知领域(包括句法层级处理)之前,排除韵律节奏的影响是很有必要的。同时本研究结果在一定程度上支持了丁鼐等人的观点,排除了韵律可以解释所有的影响。