神经元反应的相位模式区分人类听觉皮层的语音



文献:Luo, H., & Poeppel, D. (2007). Phase patterns of neuronal responses reliably discriminate speech in human auditory cortex. Neuron54(6), 1001-1010. https://doi.org/10.1016/j.neuron.2007.06.004

1. 研究背景及本研究 ¶

人类语音信号在振幅和频率域中包含丰富的动态,它们都有助于语言理解(Shannon et al., 1995; Smith et al., 2002; Zeng et al., 2005),但是仍不清楚人类听觉皮层对这种复杂信号的表征情况。对动物的广泛研究表明,与合成声音相比听觉皮层神经元对同物种发出的声音的反应更强烈。之前通过脑电和脑磁的研究证明了大脑皮层在时域内的反应可以区分单词和人工的简单句 (Suppes et al., 1997)。并且语言的可懂度与听觉皮层的神经反应也有很大关系(Ahissar et al., 2001)。但是这一实验没有在同一录音下以及自然的材料下比较不同清晰度的神经反应,并且没有讨论口语分析背后的机制。本研究致力于表征口语句子声学的听觉皮层机制。

2. 具体实验方法 ¶

三个口语句子:‘‘It made no difference that most evidence points to an opposite conclusion.’’; ‘‘He held his arms close to his sides and made himself as small as possible.’’; ‘‘The triumphant warrior exhibited naive heroism.’’其中2个句子是由女性所讲,1个句子由男性讲,句子的持续时间为4000–4700 ms。每个句子都有4种语音噪音嵌合体:Env4、Fin1、Env1和Fin8,其清晰度得分分别为0.85、0.7、0.05和0.2,可将其分类为清晰地(原始音、Env4以及Fin1)和不清晰地(Env1 和 Fin8)。

开始时给受试呈现1 kHz的音调点(持续时间ms),以确定受试M100诱发反应。然后告知被试听不同版本的句子,在每次的语音trial中,两句话以1s的间隔依次呈现,要求受试者通过按键来判断它们是否是相同的句子。第一个句子总是来自于清晰地版本(原始音、Env4以及Fin1)第二个句子总是来自不清晰的版本(Env1, Fin8)。9个清晰版本的句子(3个句子 X 3个清晰的版本)以舒适的音高呈现21次。从TIMIT数据库中另外选择了11个持续时间匹配的句子,并构建了它们的不清晰版本(Env1, Fin8)。每个trial中的第二个语音刺激随机从不清晰的句子中选择。记录MEG反应,仅提取对清晰句子的反应以进一步分析。

3. 结果 ¶

如下图1A所示研究将同一句子的神经反应信号归为 ‘‘within-group’’信号,不同刺激条件归为‘‘across-group’’信号。如果特定频率的相位模式成功地区分了句子,组内信号的相位模式应该比跨组信号的更相似。下图B上部分展示了组内信号与组外信号的交叉相位相干性在Theta频段的不同,而组内信号与组外信号的功率并没有不同(图1B下),表明Theta频段的相位模式区分了句子。源分析结果表明theta频段相位不相似信号主要来源于听觉皮层,并显著偏右侧化。这更表明了听觉皮层中θ频段活动的相位追踪句子刺激。

图1

对比了句子调制为不同赫兹频谱结果表明并不是调制句子频谱赫兹的原因,也排除了调节的句子句子频谱本实所具有的功率导致的theta频段相位模式改变的原因。这表明theta相位模式不是简单的刺激-声学驱动的,而是与语音的内在皮层处理密切相关。研究又分析了一名受试者对同一句子的不懂版本的MEG反应,发现theta相位追踪与语音清晰度紧密联系。

4. 讨论 ¶

结果表明对句子的追踪是由纯theta相位能量调节的,theta频段对应的时间窗口是125–250 ms,对应的是音节的长度,不同句子刺激具有不同theta相位模式的原因是不同句子的音节结构和句子时间的变化。