神经诱导决定了我们听到的话语



文献Kösem, A., Bosker, H. R., Takashima, A., Meyer, A., Jensen, O., & Hagoort, P. (2018). Neural entrainment determines the words we hear. Current Biology28(18), 2867-2875. https://doi.org/10.1016/j.cub.2018.07.023

1. 研究背景 ¶

众所周知大脑活动遵循感觉信号的节律,但是仍不清楚观察到的神经震荡是否真实的反映了由刺激节律所诱导的神经震荡的募集并且这些神经震荡又反过来影响感觉加工和感知。因为神经振荡与诱导期间的语音动力学相匹配,但是还不清楚在语音加工过程中观察到的震荡活动的电生理记录是对语音分析的神经震荡还是调节对节奏语音信号的诱发反应的非基于振荡的机制的结果。例如,对于更易理解的语音信号反复观察到更强的神经诱导,但是这些观察结果可能来自于震荡机制更强的募集或者是对语音声学特征的增强诱发反应。

为了证明神经诱导在言语感知中的因果作用,振荡活动必须从驱动刺激的动力学中分离出来。神经振荡模型表明,当语音时间特性突然改变时,这种分离是可能的。在语速改变后,应该观察到对前面语音动力学的持续诱导,这意味着所观察到的对语音的神经诱导依赖于上下文节律信息。如果神经振荡因果地影响语音处理,不同的神经振荡动力学应该导致对相同语音材料的不同感知。这预示着对过去语音节奏的影响会影响随后的感知。与这一提议一致,已经有证据表明背景语速影响后续单词的监测,词边界的划分和感知成分的持续时间。本研究认为,这些影响可能源于持续的神经振荡活动的存在,这种活动定义了连续语音中语言片段的解析窗口。持续诱导的频率会影响离散项的开始、结束和持续时间,因此频率的变化会导致提取的语言单位的不同感知。

2. 本研究 ¶

本研究用MEG记录了荷兰语母语者以不同的语速听荷兰语句子来测试这一假设。如图1A所示,在句子开始即载波窗口被压缩或扩展,导致一个快的或慢的语速,慢速和快速条件下的语音包络分别在3 Hz和5.5 Hz具有强节奏分量(图1B),而两种情况下的最后3个词,即目标词都以原始语速呈现(图1C)。要求被试报告目标词的感知,该单词包含一个介于一个短/a/ 一个长 /a:/ 的元音,它们分别可以被感知为tak /tak/ ‘‘branch’’ 或 taak /ta:k/ ‘‘task”。以此来测试对神经的持续诱导是否可见的影响语音速率改变之后的语音感知。

图1

3. 结果 ¶

目标词包含一个介于长/a:/ 和一个短/a/的模糊的元音 ,这两个元音在荷兰语中通过持续时间和频谱特征(第二共振峰频率,F2)进行区分。在研究设计中,元音保持恒定的持续时间,但呈现在三个不同的F2频率上(一个模糊的F2值,一个偏向使被试报告短/a/答案的F2值,以及一个偏向使被试报告长/a:/答案的F2值)。改变F2来控制被试在任务中的参与,如预期一样,被试依靠这种声音线索来区分两个元音。并且,载波窗口的语音速率影响了对目标词的感知。如图1D表示的是在快和慢语速情况下,长元音感知的比例,被试更倾向于在快语速后感知为长/a:/元音的单词(例如taak ),在慢语速后感知为短/a/元音的单词(例如tak)。研究量化了每个被试在他带有感知偏差的行为报告中受前面语速影响的强烈程度,对应快速和慢速条件下长/a:/元音报告的百分比差异,如图1E所示。语境语速的行为效应在不同的F2中没有显著差异。这表明,当F2线索偏向短元音或长元音知觉时,语境的影响没有显著差异。因此,我们汇集了不同F2条件下的数据,用于以下MEG分析。

分别在载波窗口和目标窗口分析MEG,预期神经振荡反应在慢语速条件下有3Hz波峰,在快语速条件下在5.5Hz的波峰。因此实验引入了诱导指数(EI),EI是基于快语速和慢语速条件之间在3 Hz和5.5 Hz时的总神经振荡功率的比率。当神经振荡在快速和慢速条件下都跟随初始语速时,EI大于1。在载波窗口期间观察到对语速的显著神经振荡反应,证明了低频大脑活动有效地追踪了语音的动态(如图2A),如图2B所示,所有的被试都能看到强烈的诱导指数,并且有效地捕获了在两种条件下对语音速率的振荡反应:3Hz在慢速条件下比在快速条件下相对更强,并且5.5Hz在快速率条件下更强。并且如图2A所示,与假设一致,主要在听觉皮层观察到了显著的诱导指数。

图2

在目标窗口期EI也明显大于1,较大的EI (>1)反映了在频率上对应于先前语速的更强的振荡反应(慢语速条件下3Hz和快语速条件下5.5Hz的功率,如图3C,D),即使在语音信号不包含3Hz与5.5Hz的成分,这表明对前面的语音节奏的Neural Entrainment 持续存在。如图3A所示,可观察到沿着右侧颞上沟和颞下沟观察到最显著的持续诱导,显著的延伸到右侧额下区;而左半球没有观察到明显的持续诱导。初级听觉皮层(刺激驱动反应最大的地方)没有表现出显著的EI >1,这可能是因为在目标窗口中,听觉诱发反应干扰了持续的诱导反应。

图3

如前所示,在快语速和慢语速条件下导致对目标词不同的感知,因此,可以认为观察到的EI潜在地反映了大脑对刺激感知的反应,而不是对之前语速的持续诱导。为了验证这一假设,研究根据被试报告的目标词感知(长/短元音词感知)而不是根据之前的语速条件(慢/快)对试验进行分类,并进行了相同的EI分析。对比单词感知时,使用全脑源统计没有发现显著的聚集,在短元音和长元音感知条件下,右侧中颞叶皮层(rMTC)3Hz和5Hz的功率没有显著差异。

持续的诱导与行为表现相关,因此具有更强诱导的被试在他们的感知报告中也更强烈地受到语境语速的影响,具有更强的持续诱导(即,目标窗口中的高EI)的被试具有更强的感知偏差,即在感知目标单词时更容易受到前一语速的影响。因此持续诱导的强度在不同的被试之间具有可变性,并且可以预测被试对目标词的判断受语境语速影响的程度。相反,载波窗口中的EI既不与知觉偏差相关,也不与目标窗口中的EI相关。载波窗口中的EI可以捕获对语音的内源性诱导和刺激驱动诱发反应。因此,在载波窗口中,我们不能隔离持续的诱导反应,因为EI可能反映了不同的机制,这些机制相互影响。

图4

研究观察到持续诱导的强度在试验水平上影响知觉报告,在快语速强持续诱导中观察到更多trail被感知为长元音,而在慢语速持续强诱导中观察到更多trail中被感知为短元音(如图4B)。

4. 讨论 ¶

语音时间动态的神经追踪是一种预测机制,它涉及后续语音输入的处理,并直接影响感知。作者认为在本研究观察到的现象不能简单地解释为听觉习惯化或神经疲劳,首先,不清楚神经疲劳将如何在快速条件下在目标窗口中产生5.5Hz的神经振荡,以及在慢速条件下产生3Hz的振荡。第二,研究中观察到了初级听觉皮层外的持续诱导,而听觉习惯化可以预测感觉历史来调节初级听觉皮层的神经活动。

尚不清楚持续的诱导如何影响辅音的加工。总之,目前的结果表明,对语音的神经诱导不是纯粹的刺激驱动的,而是由过去的语速信息调节的。观察到对过去语速的持续神经诱导,它影响如何听到正在进行的单词。