事件相关反应反映了自然语音中的chunk边界



文献:Anurova, I., Vetchinnikova, S., Dobrego, A., Williams, N., Mikusova, N., Suni, A., … & Palva, S. (2022). Event-related responses reflect chunk boundaries in natural speech. NeuroImage255, 119203. https://doi.org/10.1016/j.neuroimage.2022.119203

1. 研究背景及本研究 ¶

连续的语音流通过chunk的方式提取信息,语言的chunk被视为一个自动化、整合的和多层次的过程,大量涉及短时间、受控刺激的研究表明,口语分割与多个时间尺度的相关神经同时存在 (Doelling et al., 2014 ; Ghitza and Greenberg, 2009 ; Giraud and Poeppel, 2012 ; Gross et al., 2013 ; Henke and Meyer, 2021 ; Peelle et al., 2013)。但是,对连续自然语音的分割知之甚少,人工构建的语音刺激缺乏生物有效性(ecological validity),不知道能多大程度上推广到自然语音中。并且自然语音中的句法也不等同于书面语中的句法,自然语音中大约每1s就出现一个韵律unit从而形成一个低频的节律。使用声调和中断指数(ToBI)注释系统进行的更详细的分析表明(该注释系统可以区分不同类型的由韵律单元组成的层次结构),2到5个中间语调短语的序列在更长、更明显的高级语调短语中以0.8到1.6 Hz的频率周期性变化( Stehwien and Meyer, 2021 )。大脑振荡活动被证明与非语法数字串的韵律块同步,这为delta范围内的声学驱动语音分割提供了证据(Ghitza, 2020 ; Rimmele et al., 2021);于此一致,一项使用听觉工作记忆任务的行为研究中证明了声学韵律分割的益处(Ghitza, 2017)。韵律信息可以在句子的早期获取,它可以让听众在在线句子处理过程中预测最终的句法结构(Beach, 1991 ; Schafer et al., 2000)。这些研究支持韵律短语对口语理解至关重要的假设,并可能指导句法和语义单位的认知形成(Cutler et al., 1997 ; Frazier et al., 2006 ; Stehwien and Meyer, 2021);已经提出韵律组块允许在不超过工作容量的情况下,对每个韵律单元的单个连贯信息片段进行有效解码(Inbar et al., 2020 ; Stehwien and Meyer, 2021)。

在神经元水平上,人们已经发现,韵律短语的闭合引起了截然不同的事件相关电位(EPR)成分,即开始于分隔连续韵律短语的停顿前后或甚至在停顿开始之前的闭合正移(CPS) (Bögels et al., 2011 ; Steinhauer, 2003),而当一个停顿被去除,而韵律边界的其他指示符,如前缀延长和有界音调保持不变时,CPS仍然存在(Steinhauer et al., 1999),这种成分也可以在音乐片段之间的停顿反应( Knösche et al., 2005 )以及假词和哼唱句子中的语调短语(Pannekamp et al., 2005)中观察到,表明了低水平声学-语音提示在韵律组块中的重要作用,并且在阅读中的逗号(Steinhauer, 2003 ; Steinhauer and Friederici, 2001)反应以及长的没有逗号的合成成分中(Hwang and Steinhauer, 2011)也观察到了CPS。CPS也可以反映韵律和其他线索(如上下文和句法)之间的相互作用。例如,已经发现由声学上相同的韵律边界引出的CPS受到边界的上下文可预测性的调节(Kerkhofs et al., 2007);如果韵律边界在句法上是可预测的,那么在没有明显韵律边界的情况下也可以观察到CPS(Itzhak et al., 2010)。总之,这些研究表明,CPS并非完全由自下而上的声学信息驱动,而是反映了基于几种语言线索整合的更抽象的措分节(Bögels et al., 2011)。在韵律线索的强度被完全控制的边界检测任务中,与口语句子中的非许可位置相比,语法许可的边界标记的概率更高(Buxó-Lugo and Watson, 2016)。并且当刺激中不存在韵律先说事,可以观察到对应短语和句子的抽象语言结构或者根据单词类别由人工定义的chunk的神经追踪,与无意义的语素和句子韵律相比,自然说出的句子在短语时间尺度上对语音包络的神经追踪增强表明了声学驱动的自下而上和上下文调用的自上而下处理对口语分段的影响 (Kaufeld et al., 2020)。

本研究的主要目的是:①听众是如何直观地将连续的自然语音分成组块的,以及在何种程度上有可能发现神经认知与直观感知的组块相关。共设计了两个实验,一个是行为上的另一个使用磁和脑电图(MEEG),并且本研究不根据任何预先定义的组块概念来构建刺激,例如韵律或句法驱动单元。相反,按照Sinclair和Mauranen (2006)的说法,假设语言流利的听众会自发地识别实时语音中的语块边界;因此,“语块”被定义为被母语听者直观识别的单位。并进一步强调,这样一个单位不可能仅由一类语言线索驱动,因为语言处理是整体的,并基于所有可用信息的同时整合:韵律、语义、句法甚至社会语言学 (Hanulíková et al., 2012 ; Van Berkum et al., 2008)。

自然语音从声音和文本的语料库中摘取的语音事件,在行为学实验中通过评估参与者直觉语块标记的一致性来测试母语者在语块边界方面的趋同程度,研究了停顿长度、韵律和句法结构对语块边界感知的影响。然后,研究使用MEEG研究了与直觉组块相关的神经认知机制,该机制基于行为实验,通过记录对插入停顿的诱发反应(1)在参与者之间具有高和中等一致率的组块边界,以及(2)在无边界,即参与者没有标记边界的位置。在以前的研究中,已经发现省略或延迟最后的单词或单词片段会引起双相负-正发射电位(EP)(Bendixen et al., 2014 ; Besson et al., 1997 ; Mattys et al., 2005)或单相正向反应或单相积极反应(Nakano et al., 2014),这被认为反映了概念上的惊讶和对句法异常的重新分析。

研究假设插入直觉语块边界位置和非边界位置的无声停顿会引发不同的事件相关(ER)活动,也就是说预期在直觉语块边界位置插入的无声停顿将与边界特定的反应相关联,而在非边界插入的无声停顿将被视为中断。然而,由于自上而下和自下而上的信息在不同的语言组织水平上以高度交互的方式整合,研究也期望检测句法结构对边界相关脑活动的调节作用。

2. 实验材料和方法 ¶

研究分为两部分。在第一个行为实验中,被试一边听演讲摘录,一边在平板电脑上追随文字记录,同时直观地标记自然演讲摘录中的语块边界,基于此结果评估不同被试之间的边界一致性。然后使用磁和脑电图(MEEG)结合使用一致的组块边界来研究神经元相关性,这个实验中,在语块边界和非边界的位置插入了2 s的无声停顿,并估计了这些无声停顿的ER。

行为实验中共有104个无语言学背景的神经生理健康的被试,都是流利的非英语母语者,自我报告无阅读障碍,MEEG数据和磁共振成像信息来自20名志愿者。两个实验中的被试无重叠,都是非英语母语者(分别来自芬兰、西班牙、中国、俄罗斯、阿拉伯、德国等)。

语音刺激来自大学环境中记录的真实语音的三个语料库创建的,从学术交流中典型的演讲事件中选取了195个10-45s长的语义连贯和语法良好的摘录,这些摘录在演讲事件的大背景之外本身是有意义的,为了确保句子的可懂度,研究也控制了专业词汇和低频词汇。然后由一个训练有素的speaker再现这些摘录,他高度精确地模仿原始的语调模式,speaker是双语者,英语是他的母语之一。

两个连续单词之间的所有边界都标注了停顿长度、韵律边界强度和分句句法结构。使用WebMAUS( Schiel, 1999 )进行暂停标注,它会自动将录音与其抄本和Praat对齐(Boersma and Weenink, 2017),韵律边界强度使用小波韵律工具包进行评估,小波韵律工具包是一个无监督系统,它基于基频、能量包络和单词持续时间(不包括停顿和呼吸)执行连续小波分析(CWT ),并找到韵律边界(Suni, 2017 ; Suni et al., 2017),该方法检查每个字边界的能量和基频最小值,以及相邻字的持续时间之间的差异的最小值(边界前变长),韵律边界是通过在结果尺度图中追踪所有这些尺度的最小值来定义的。

在句法注释中,我们将从句定义为动词短语周围的成分结构,并在定义中包括限定从句和非限定从句。每个分句在开头和结尾都有一个分句界限,分句内部没有界限。该注释以1到4的比例绘制,以从成分结构的角度反映句法边界强度,该成分结构在本质上是分层的,并假定较小和较大成分之间的部分-整体关系因此,一个分句结束而下一个分句开始的词边界被认为是语法上最强的,并被赋予值4(clausal/clausal or C/C),一个分句结束但新的分句没有立即开始的地方被赋予值3(clausal/non-clausal or C/NC),一个新的分句开始但其所嵌入的分句尚未结束的地方被赋予值2(non-clausal/clausal or NC/C) ,没有单个分句边界的地方被赋予值1(non-clausal/non-clausal or NC/NC)。如下1图句法注释的例子。

图1

研究通过测量从前一个组块开始到连续组块开始的间隔(以s为单位),评估了由统计上显著的边界分隔的所有直观定义的组块的平均持续时间,以便将分隔组块的自然间隙包括在较早的间隔中。

使用一个定制的基于网络的平板应用ChunkitApp来收集关于直观感知的组块边界位置的数据(Vetchinnikova et al., 2017),该应用程序会在被试耳机中播放录音的同时显示录音的转写(如下图2A),要求被试听录音,并通过点击同步的转写中的~来标记直观感觉到的边界。

图2

3. MEEG实验 ¶

根据以上行为学实验的结果(图2B),在MEEG实验中选择高和中等一致性和无边界(低于5%)的序列,然后在高和中等和无边界的的地方插入2s的停顿,所有摘录包含2到7个2秒钟的无声停顿(图2C)。通常,每个语音刺激包括至少一个插入组块内的停顿和一个插入组块边界的停顿,两个停顿之间的平均间隔为4.1 ± 1.4 s。无边界条件有197个trial,中等230个,高-257个。

语音刺激通过双声道呈现给被试,每一个新的摘录呈现给被试时屏幕中央会呈现一个十字(图2D),并要求被试在整个过程中都保持对十字的注视(包括插入暂停的位置),在摘录呈现完毕后的2s时,屏幕上会呈现一个7s的理解问题,被试通过抬起右手的食指或中指表示“是”或“否”来回答问题,任务的表现以回答问题的准确率和反应时来衡量。3s间歇之后屏幕上再次呈现一个十字,表明下一个摘录开始呈现。一个实验包括6个block。

在HUS医学影像中心的BioMag实验室的一个磁屏蔽室中收集了并行的64通道EEG和306通道MEG (Elekta-MEGIN)数据,EEG数据的参考电极在鼻子上,记录高通滤波器是0.03Hz,采样速率是1000Hz。

MEEG分割成插入暂停之前的200ms和之后的1000ms的段,然后手动去掉包含眼动和运动伪迹的时期,并用插值坏导。滤波0.5–20 Hz,刺激前200ms为基线校正。

4. 结果 ¶

通过被试的chunk标记结果分为低(22-33%)、中(35-57%)、中高(58-79%)和高(80- 100%)边界一致性。图3显示了停顿长度、韵律强度和分句结构在有界分类中的分布,可以看出随着边界一致性降低,三个语言特征的强度也在减少。多元线性回归分析表明停顿长度、从句句法结构和韵律强度与边界一致性都有显著性相关( p < 0.001),由于所有变量都是标准化的,回归系数可以根据变量的重要性来解释,并表明停顿长度与边界一致性的关系最强,其次是句法结构和韵律强度。总之,在实时语音组块中,听者使用所有三种线索——停顿长度、从句结构和韵律强度分析语音。

图3

5. MEEG 实验 ¶

图3B展示了MEEG实验选择语言的特征分布,在边界高一致性的条件下,边界处往往有更长的原始停顿和更强的韵律;而边界中等一致性的条件下,边界处包含更多语法结构上的改变(从句的开始或结尾)、韵律更弱、包含更短的原始停顿;非边界处没有从句的结尾并且具有更弱的韵律强度和更短或无停顿。

行为数据反应被试能够理解摘录的语音,任务表现的准确率为79 ± 1.6%,平均反应时间为4.2±0.2s。

在非边界和边界条件下,ERP的波形和头皮分布有很大不同,如图4B,C。在非边界处插入的暂停引起双相反应,其负相在暂停开始后约150-200 ms达到峰值,正相在约450 ms达到峰值;对在中等和高一致率边界插入停顿的反应是单相的,在高条件下大约300ms,在中等条件下大约400ms达到峰值。

图4

图5

诱发反应局限于初级和非初级听觉皮层和额下区(图5,A),三种条件下都激活了颞叶皮质,而非边界条件在第三窗口期间(450~570 ms)激活了右侧额上回,在第一个和最后一个窗口期间,非边界情况下的激活最强,而中等和高等边界一致性在第二窗口期间激活最强(如下图5A和图6AB)。并且在非边界条件下,大脑半球右边的激活比左边强,而高边界一致性条件下大脑半球左边比右边激活更强。语块中断在双侧后部、右侧颞叶和右侧前额叶区域引起了更显著和持续的活动。高一致性边界条件左半球活动比中等一致性边界条件稍早,两条件之间最大的差异在第一窗口期间。

图6

6. 讨论 ¶

研究再次证实了自然语言边界是由多种语言线索决定的(韵律的强度、句法结构、暂停的时间),在非边界情况下的暂停观察到了双相诱发反应,在之前对连续听觉刺激(如语音和音乐)的中断的反应中也观察到了类似的反应模式,发出的电位的第一相位可以代表由预期但缺失的听觉输入所引起的遗漏失配负波 ( Bendixen et al., 2014 ; Horvath et al., 2010 ; Pihko et al., 1997 ; Raij et al., 1997 ; Tervaniemi et al., 1994 ; Yabe et al., 1998 , 1997 ),然而,它也可以包括对非边界条件下语音突然停止的强制性关闭响应。对chunk中断反应的第一阶段主要起源于初级和后部听觉皮层,发射电位的第二个正相可能对应于P3a,在需要重新组织注意力以促进新奇事物处理的情况下,P3a通常跟随MMN( Polich, 2007 )。而具有高和中等一致率的边界诱发了通常在韵律边界的末端观察到类似于CPS的单相现象。高边界一致性条件比中等一致性边界条件的发应增加,表明反应受句法结构的调节。