口语叙事中声学和语言节奏的皮层编码



文献:Luo, C., & Ding, N. (2020). Cortical encoding of acoustic and linguistic rhythms in spoken narratives. Elife9, e60433. https://doi.org/10.7554/eLife.60433

1. 研究背景及本研究 ¶

尚不清楚皮层活动是否可以与自然口语叙事中的语言单位同步,以及它如何受到自下而上的声学线索和自上而下的语言知识的影响。本研究探讨大脑皮层是否可以反映语义连贯故事中双音节词的节奏,故事是自然朗读或者是语音合成,然后探讨大脑对双音节词的反应是否受到词边界韵律线索的影响。

2. 材料和方法 ¶

68名被试,平均年龄22.6岁,37名女性参与了EEG实验。34名被试参与行为实验以测试语音刺激是否自然,所有的被试都是右利手普通话母语者,自我报告无听力损伤和神经障碍。

共构建了28个短故事,这些故事在内容上是不相关的,词数从81到143不等。其中21个格律故事为双音词或成对的单音节词构成的,所以音节序列的奇数项都是单词的开始,如下图1A中加粗的黑字就是每个单词的开始,所有的音节序列都是以4Hz的频率呈现,标点符号的地方插入一个500ms的间隔,上边红色的曲线代表的是与单词开始同步的皮层活动。相反另外7个非格律的故事语音,词开始的位置并不规律,因此对应的皮层同步也是不规律的,没有2Hz频率。自然语音是由一个女性在不知道故事目的的情况下录制而成。21个格律故事的总时长为1122s,7个非格律故事的总时长为372s,并且行为学测试表明被试不能察觉到格律故事和不格律故事的区别。在调幅语音中,把音节序列调制为与词频率同步的韵律节奏,把每个词的第一个音节(S1)或者第二个音节(S2)放大4倍,以此产生2Hz的频率而不影响语音的清晰度。行为测试表明,当听调幅语音时,更多的参与者认为s1放大的语音比s2放大的语音更自然。

图1

行为测试的目的是评估语音刺激的自然度。测试分为两个block,在block1中被试以伪随机的顺序听由一个读者读的一个规律故事和一个非格律故事。故事是从故事集中随机选择的。在听完每个故事之后要求被试写一句话来总结故事,并填写一个问卷。block2和block1一样,被试听的语音材料为S1调幅语音或S2调幅语音。

调查问卷中的第一个问题是,无论内容如何,格律故事和非格律故事这两种类型的故事是否有明显的区别,31名被试中91%认为未发现任何差异,剩下被试报告注意到语调模式的一些差异,但没有被试报告单词节奏的差异。第二个问题是调查阅读语音的自然性,71%的被试报告两类故事阅读都很自然。在第二个block中只要求被试比较s1放大语音或s2放大语音的自然度和可及性。其中44%的被试认为S1放大语音更自然,50%的被试认为两者无区别。因此被试认为S1放大语音相对更自然。

3. EEG实验 ¶

研究包括4个EEG实验,前3个分别包含16名被试,实验4包含20个被试。

实验1中呈现的是合成语音,共包括2个block,其中第1个是听等时语音,包括7个规律故事和7个非规律故事,block2中听的是调幅语音,包括7个S1调幅故事和7个S2调幅故事。block2中的14个故事全部为规律故事,并不与block1中的重合。在听故事时中要求被试闭眼,然后口头回答3个理解性问题。一名主试负责记录被试的回答并按键以继续实验。按键之后的1-2s呈现下一个故事。被试在block之间进行休息。

实验2中呈现的故事与实验1中的相同,但是任务不同,要求被试观看一部有字幕的无声电影(小王子),并在实验过程中忽略任何声音。故事在电影开始后5分钟呈现,以确保参与者被试已经参与到看电影的任务中。故事播放完毕之后,无声电影也随之结束。然后要求被试回答关于对故事的意识的问题,87.5%的被试报告完全没有注意故事。

实验3中呈现的故事与实验1中的相同,但是是由人自然阅读的,实验任务也与实验1相同。在这个实验中被试共听21个规律故事和7个非规律的故事。每听完14个故事就中间休息一下。

实验4旨在测试基于调幅语音的结果是否可在不同组的参与者中复制。实验四中使用的所有故事都是格律故事,每个故事呈现一次。在block1中要求被试观看一部带字幕的无声电影(小王子),并在任务过程中忽略任何声音。电影开始后约5分钟,播放调幅语音(5个s1放大的故事和5个s2放大的故事)。block1中的问题是被试对故事的意识问题,15%的被试(N = 3)报告说他们在任务中没有注意到任何故事。值得注意的是报告对故事无意识的被试比例与实验2大幅下降。一个可能的解释是,实验4只呈现了调幅语音,词速率声学线索的持续存在促进了词的识别。然而,在实验2中,当调幅语音与等时语音混合时,AM提示的不一致存在减弱了它的效果。在block2中被试闭眼听调幅语音(5个S1放大的故事,5个S2放大的故事),一个故事呈现完毕之后要求被试口头回答3个理解性问题,由一名主试记录并按键继续呈现下一个故事。

在自然语音中使用 time-warping分析

4. 结果 ¶

EEG对等时呈现故事的反应如下图2所示,A所示在格律故事中看到了2Hz(词)和4Hz(音节)的峰,而在非格律的条件下只看到了4Hz(音节)的峰,反应的地形图为额中央分布。当被试看电影的情况下格律故事和非格律故事都只看到了4Hz的峰(图2C)。这个结果表明当被试注意力在语音理解中时,大脑活动与词频率同步,当注意力不在时,与词同步的活动消失。

图2

在自然语音中,词不是以固定的频率呈现的,研究对自然语言的反应进行了时间扭曲,使音节和单词的反应具有周期性,具体通过提取自然语音中每个音节的神经反应,并使用基于卷积的程序将其重新排列为恒定的4Hz节奏。在时间弯曲分析后,预期与单词开始同步的皮层活动显示2Hz的节奏,与对同步语音的反应相同。结果如图2E所示,大脑对格律故事呈现4Hz和2Hz同步活动,对非格律故事只呈现4Hz活动。这些结果表明,在注意力集中的语音理解过程中,皮层活动与自然口语叙事中的单词节奏是同步的。

结果如图2BD所示,在注意力集中在语音理解的情况下,被试对调幅语音呈现的故事具有2Hz和4Hz的峰值,并且幅值与等时语音无显著差异。这些结果表明,在注意集中的言语理解过程中,2Hz的反应功率没有受到2Hz的调幅的显著影响。而在当被试被动听调幅语音时,也观察到了2Hz的峰值,并且与被动听等时语音在2Hz出有显著差异。S1放大与S2放大在2Hz处无显著差异。表明当注意力没有集中在语音理解的时候,2Hz处的幅值显著受到调幅的影响。

S1放大和S2放大相位不同反应了2Hz的峰值到底是大脑活动与词的起始同步还是与放大音节同步,与放大音节同步的神经活动显示在s1和S2放大条件之间有250 ms的时滞,这相当于2 Hz条件下的180°相位差。如下图3C所示,展示了S1和S2相位差异。

图3

0°和180°之间的相位差表明与单词开始同步的神经反应和与放大音节同步的神经反应都存在,但是相位分析不能揭示这两种反应成分的强度。然后研究通过以不同方式对s1和s2放大条件下的响应进行平均,提取了对单词和AM的神经响应。s1和s2放大条件下的平均值保留了对单词的反应,但取消了对放大音节的反应(图4A)。

结果表明在故事理解和观看电影任务中,都观察到2 Hz的显著反应峰(图4B),但是在故事理解中的反应显著大于观看电影中的反应。当观看电影时呈现调幅语音时,可观察到显著的2Hz峰值;而在观看电影时呈现等时语音时则无2Hz峰值,这表明2Hz的调幅语音有助于被动听语音时词的加工。在故事理解中等时语音与调幅语音在2Hz处的峰值无显著性差异,因此表明调幅语音在被试集中在语音理解时不影响词的加工。

图4

研究通过在S1扩大条件下增加250 ms的延迟来校准s1和S2扩大条件下的反应,然后对不同条件下的反应波形进行平均(图4C)。因此两种条件下的平均值保留了对2Hz 调幅的反应,同时取消了对单词的反应。可以看出理解故事和观看电影任务下对调幅2Hz反应无显著差异,表明对调幅的反应不受对语音注意力的影响。并且在故事理解任务中,对词的2Hz的反应相显著大于对调幅的2Hz的反应;而在观看电影任务中,对词的2Hz的反应显著小于对调幅的2Hz的反应(图4E)。

对单个电极的分析表明,在故事理解任务中,额叶中央电极的2Hz单词反应明显强于AM反应(图4F左边),地形图比较表明对单词2Hz的反应与对调幅的2Hz反应在颞叶有很大不同。表明对词和调幅反应的神经源不同。

当被试注意力在理解语音上时,被试对S1和S2的反应在等时语音和自然语音中显著不同,而当被试观看电影时,S1和S2之间ERP的不同变小(下图5A)。ERP地形图差异显示额叶中央分布。当被试在理解故事和观看电影时听调幅语音,在S1放大和S2放大两种情况下都观察到了S1与S2 ERP反应不同(图5C,D)。

图5

5. 讨论 ¶

语音理解是一个涉及多个阶段的复杂过程,例如,编码声学特征,提取语音特征,高层级语言单位的加工例如,单词,短语,句子。本研究调查了低频皮层活动如何编码语言单位和相关的声学特征。发现无论听者在听自然叙述的语音还是等时播放的合成语音(缺乏声学线索),都能观察到与语音节律以及词同步的神经活动。并且当听对词引入调幅线索的语音时,能分别观察到对词和调幅的反应,并且具有不同的空间分布,并且当被试注意力在理解故事时,对词的发应比对调幅的反应更显著。调幅在被试注意力在语音理解时对词的神经反应无影响,但当被试注意力不在语音理解时对词的反应具有影响。因此,表明自上而下的语言学知识和自下而上的声学线索都导致与词同步的神经活动。

在言语中,声学信息由一系列层级语言单位所组织,包括音位、音节、语素、单词、短语、句子和语篇。这些单位的时间跨度很大,从几十毫秒的音位到几秒钟的句子。理解大脑如何表征语言单位的层级是一个极具挑战的问题,一个吸引人的假设,即语言单位的每一个层次都是由相关时间尺度上的皮层活动编码的(Ding et al., 2016a; Doumas and Martin, 2016; Giraud and Poeppel, 2012; Goswami, 2019; Keitel et al., 2018; Kiebel et al., 2008; Meyer and Gumbert, 2018)。先前的fMRI研究表明,不同层次的神经处理,例如音节、单词和句子,涉及不同的皮层网络(Blank and Fedorenko, 2020; Hasson et al., 2008; Lerner et al., 2011)。脑磁图(MEG)/脑电图(EEG)研究已经发现了与语音同步的可靠的δ和θ波段神经反应(Ding and Simon, 2012; Luo and Poeppel, 2007; Peelle et al., 2013),这种活动的时间尺度与音节和更大的语言单位的时间尺度是一致的。

但是,尚不清楚这些MEG/EEG反应是否直接反映了分级语言单位的神经编码,或者仅仅编码了与这些单位相关的声学特征(Daube et al., 2019; Ko¨sem and van Wassenhove, 2017)。一方面,在缺乏语音理解的情况下,例如,当参与者听到难以理解的语音时,可靠地观察到声音包络的神经追踪(Howard and Poeppel, 2010; Zoefel and VanRullen, 2016) 和非言语声 (Lalor et al., 2009; Wang et al., 2012),并且,包络追踪反应对由真实单词组成的句子甚至比由假词组成的句子更弱(Mai et al., 2016),以及对母语语言的反应比不熟悉的语言的反应更弱(Zou et al., 2019),在动物的初级听觉皮层也能观察到对声学包括的同步反应(Ding et al., 2016b)。此外,最近的一项研究表明,低频皮层活动不能反映对模糊音节序列的感知,例如,一个音节的重复是被感知为“flyflyfly”还是“lifelifelife”(Kosem et al., 2016)。

另一方面,可以使用控制良好的合成语音观察到与语言单位(如词和短语)同步的皮层活动,该合成语音去除了相关的声学线索(Ding et al., 2016a; Jin et al., 2018; Makov et al., 2017),但是,这些研究通常以恒定的速度呈现语义上不相关的单词或句子,导致听众容易注意到的明显的节奏。相反本研究适用的是语音相关前后连贯的故事,并且当被试注意力在听语音时在合成等时语音中和自然语音的格律故事中都观察到了与词同步的皮层活动。行为研究结果表明被试并没有发现格律故事与非格律故事的不同之处,因此表明对词的皮层活动反应的是对词的隐性加工而不是明显的韵律感知。对自然语音和等时语音的反应的比较显示,自然语音对单词和音节的反应较弱,这表明刺激的严格周期性确实可以促进有节奏的神经诱导。