跨时间尺度的神经振荡在语音和音乐处理中的作用



文献:Gnanateja, G. N., Devaraju, D. S., Heyne, M., Quique, Y. M., Sitek, K. R., Tardif, M. C., … & Dial, H. R. (2022). On the role of neural oscillations across timescales in speech and music processing. Frontiers in Computational Neuroscience16. https://doi.org/10.3389%2Ffncom.2022.872093

1. 研究背景 ¶

在过去的十年里,关于神经振荡在感觉处理中的作用的研究激增。什么是神经震荡?神经振荡是发生在多个时间尺度上的神经元群体的自我持续的节律性活动,通常在局部场电位中观察到,并可调节单个神经元的峰值活动 (Howard and Poeppel, 2010; Giraud and Poeppel, 2012)。神经震荡在人静息状态中能够观察到,并且它的能量和相位由外部因素(如感觉刺激)和内部因素(如自发运动和走神)。最近的研究表明,神经振荡可以灵敏地追踪刺激中发生的变化( Haegens and Zion Golumbic, 2018; Meyer, 2018; Myers et al., 2019; Obleser and Kayser, 2019),根据研究发现它们在语音感知和音乐感知中具有重要作用。因此本综述的主要目的是:(1)神经震荡的频段和他们的主要功能作用;(2)用于分析神经震荡的主要指标;(3)神经振荡在衰老、听力丧失、影响言语和语言障碍 (Palana et al., 2022)和语音加工中的功能相关性。

2.振荡频段及其在语音和音乐处理中的功能作用 ¶

大多数关于神经振荡的听觉研究利用M/EEG的非侵入性特性来研究神经振荡在相位或功率上与语音中的声学和语言节奏是如何对齐的,通常称为追踪(tracking)或节律同步(entrainment)。尚不清楚震荡同步是(1)对节律性刺激事件的延迟的、被动的、短暂的、诱发的反应的总和;还是(2)主动的,与刺激节律同步的内部固有的大脑震荡;或(3)两者共同的结果(Haegens and Zion Golumbic, 2018; Rimmele et al., 2018; Coffey et al., 2021; cf. Doelling et al., 2019; Zou et al., 2021)。在听觉领域,关于神经震荡的机制作用还尚在研究中,特别是关于神经震荡是听觉系统的诱发效应还是改系统内在固有的成分。关于神经震荡到底是诱发的还是内在固有的的总结超出了本小综述的范围,详情可参考文献(Haegens and Zion Golumbic, 2018; Lakatos et al., 2019; Poeppel and Assaneo, 2020; cf., Doelling and Assaneo, 2021)。

神经震荡通常按照频段分组,这些频段在编码声学和在振荡频率相当的时间尺度上展开语言信息方面起着重要作用(Ding et al., 2016; Meyer, 2018; Myers et al., 2019),更慢的波段更专注于处理长时间展开的信息,而更快的波段则更专注于快速展开的信息。δ波段(0.5 - 4Hz)是语言和音乐中单词、句法结构和韵律线索的编码(Ghitza, 2017; Meyer et al., 2017, 2020a; Keitel et al., 2018; Teoh et al., 2019; Rimmele et al., 2021),θ波段(4-8Hz)的振荡速率与音节产生的速率相似,并且与音节处理有关(Ghitza, 2013; Poeppel and Assaneo, 2020),alpha (8 - 12hz)和beta (12 - 25Hz)波段分别与注意力(Wöstmann et al., 2017)和听觉-运动耦合(Fujioka et al., 2012)有关,γ波段(25-140Hz)被假设为编码听觉信号的快速波动,对编码语音特征至关重要 (Masuda and Doiron, 2007; Giraud and Poeppel, 2012),并认为γ反映了更多的自下而上的、较低层次的语音和语音结构处理,而δ和θ可能反映了更高层次的听觉和语言对象的合成,并可能调节γ活动(Hyafil et al., 2015b),研究人员提出了一种θ-γ耦合机制,θ振荡追踪语音的音节结构,并提供一个时间框架来分组由γ振荡编码的语音特征(Hyafil et al., 2015a; Lizarazu et al., 2019; Hovsepyan et al., 2020)。

3. 语音和音乐处理中的振荡 ¶

计算建模的最新进展使人们对听觉神经处理的机制有了新的认识。Doelling等人(2019)模拟了MEG对不同频率音乐的反应,支持了对音乐刺激的神经处理机制是诱发和内在固有的结合,Zou等人(2021)随后将这种方法用于对普通话叙事的脑电图反应,他们观察到大脑皮层活动和语音包膜之间的相位延迟在跨频段的线性变化,这表明这些振荡可以被模拟为诱发反应。因此,神经对语音和音乐的反应可能反映了诱发的和内在的振荡校准,这取决于刺激的时间尺度和感兴趣的振荡频率。并且大量研究发现任务、个体的可塑性以及刺激属性都对语音和音乐处理的神经机制有影响。

4. 不同群体的神经震荡 ¶

尽管大多数关于语音皮层追踪的研究都是在典型的年轻人身上进行的,但它有望成为一种评估不同人群的语音和语言处理的有效工具,用于,例如,Braiman等人(2018)研究了无法产生明显反应的严重脑损伤患者的言语包膜皮层追踪(Palana et al., 2022),在fMRI心理成像任务中表现出最低限度意识状态的个体也表现出对语音包膜追踪的保留。皮质追踪方法的好处是它提供了一种廉价的、时间上精确的节律编码测量方法。因此,对典型和临床人群的语音感知研究来说皮层追踪测试是一种有吸引力的方法(RíosLópez et al., 2020; Kolozsvári et al., 2021; Ortiz Barajas et al., 2021)。

最近神经典型的老年人和有或无听力损失的个体中观察到的δ-θ范围追踪到的语音包络增加(Mirkovic et al., 2019; Decruy et al., 2020; Gillis et al., 2022),同样,在语少变异性原发性进行性失语(lvPPA)患者(即一种由神经退行性疾病引起的语音处理受损的障碍)中,观察到θ范围(即音节率)语音追踪增加 (Dial et al., 2021),并且这一发现在不同声学和语言特征的叙述中是非常可靠的,进一步支持该方法在临床人群中的效用。

相反在患有发育性障碍的儿童和成人中观察到δ-θ范围范围的皮层追踪减少(例如阅读障碍儿童: Molinaro et al., 2016; Power et al., 2016; Di Liberto et al., 2018; Mandke et al., 2022; adults with dyslexia: Molinaro et al., 2016; Fiveash et al., 2020; ASD儿童: Wang et al., 2021; c.f., Yu et al., 2018),发展性阅读障碍患者对音节重音、韵律和韵律结构的感知受损,指向一个偏离的振荡网络(Goswami, 2019)。这个解释是在时间采样假设的背景之下,即听觉皮层的δ振荡和θ振荡分别对音节率下的韵律感知和时间整合很重要。时间采样假设也适用于其他交流障碍例如口吃的个体显示韵律加工的受损(Wieland et al., 2015)和更差的时间分辨率(Devaraju et al., 2020)以及计划言语表达时异常的神经相位一致性(Sengupta et al., 2019)。

最近的理论也提出了发展性言语和语言障碍个体的非典型节律处理,两个这样的理论是语音和音乐中的加工节奏(PRISM)框架(Fiveash et al., 2021)和非典型节奏风险假说(ARRH; Ladányi et al., 2020)。PRISM强调了诱发振荡与外部节律刺激对齐以及精确的听觉定时和感觉运动耦合的重要性。类似地,ARRH强调早期识别风险因素(如遗传倾向)并尽早解决非典型节律处理,解决非典型节奏处理的一个潜在的有希望的方法是使用更多类似歌曲的语音刺激,因为研究表明,在富有挑战的听力条件下,当语音被唱出来时,神经锁相比当语音被说出来时更强(Vanden Bosch der Nederlanden et al., 2020)。越早识别出这些障碍,就能越早的得到干预,长期预后就会更好。

5. 皮层追踪的大小反映了加工的质量吗? ¶

如之前所提到的,分别在老年群体以及有沟通障碍的群体中观察到了皮层追踪的增大和减小,因此一些研究人员认为皮层追踪与行为表现之间的关系是非线性的,在一定范围内追踪增加表现更好,超过该水平,追踪增加则表现更差(Schmidt et al., 2021)。其中对老年人和听力损失的人追踪增加的解释是对初级听觉皮层之外脑区的招募和抑制机制之间的不平衡,导致过度兴奋,并因此导致对语音包络中的声学提示的低效处理(Decruy et al., 2019),例如,Brodbeck等人(2018年)发现,老年人和年轻人之间的最大差异发生在初级听觉皮层以外区域的相对早期的潜伏期,这表明老年人招募了更大的大脑区域网络来处理听觉线索,即使是在处理的早期阶段,皮质追踪的增加也可能代表一种改善语音感知的补偿机制,因此实际上老年人(Decruy et al., 2019)和听力损失者(Decruy et al., 2020)的包络追踪增加与更好的语音理解有关。

皮层追踪和语音处理之间的关系也可能被δ和θ波段的差异效应所混淆。Etard 和 Reichenbach (2019)发现在年轻人中,δ波段追踪增加与更好的理解有关。类似地,McHaney等人(2021)发现,老年人对噪声中语音的理解能力较好,这与噪声中语音的δ波段追踪能力相对于安静时有较大提高有关。Dial等人(2021)发现,与神经典型的老年人相比,lvPPA患者的θ波包络追踪增加,Dial等人(2021)发现,与神经典型老年人相比,lvPPA患者的θ波包络追踪增加,尽管其言语理解能力较差。因此,大脑皮层在δ带的追踪增加可能反映了更好的理解,而在θ带的追踪增加可能反映了更差的理解,但是,存在相矛盾的证据,Etard 和 Reichenbach (2019)发现年轻人在θ波段的追踪增加与感知的语音清晰度正相关,因此很难对δ和θ频段在语音处理中的独特作用得出强有力的结论。

6.讨论 ¶

有证据表明经颅交流电刺激(tACS)之后被试的听觉感知能力提升,因此可能对临床人群具有重要意义。