人类听皮层神经元反应的时相模式对语音的可靠识别



文献:Luo, H., & Poeppel, D. (2007). Phase patterns of neuronal responses reliably discriminate speech in human auditory cortex. Neuron, 54(6), 1001–1010. https://doi.org/10.1016/j.neuron.2007.06.004

论文原文

人类语音信号中有丰富动态特征,包括幅度和频率等,这些特征对于语音理解至关重要。而人类听觉皮层对于这种复杂信号的表示仍然具有难以理解的问题。对于动物神经生理学方面,已经使用物种特异性的沟通声音进行了广泛的研究,发现许多听觉皮层神经元对于同种沟通声音产生更强的反应。有研究表明,单个听觉神经元或神经元群体以可靠的方式编码复杂的物种特异性沟通声音。人类神经影像学研究表明,多个大脑皮层区域与语音处理显著相关。这些区域的大规模神经元集合反映了关于语音、单词或类语音刺激的谱和时间内容的详细信息。但尚未完全了解神经影像数据中能够追踪和区分自然语音信号的宏观皮层反应的具体属性,在单个神经元水平上处理听觉信息的机制如何与皮层细胞集合的反应相结合。

有研究探索了听觉皮层如何处理口语语音的声学结构。研究人员假设皮层节律的相位模式可能是一个重要的表征机制,特别是与可理解的语音相一致的节律。通过记录参与者在听口语句子时的MEG信号,并使用不同程度的语音降噪方法来构建两种降噪的语音信号,研究人员发现,人类听觉皮层的theta波响应的相位模式可区分口语句子信号,并且这种跟踪能力与句子可理解性相关。这项研究的结果表明,连续的语音是由一个内在的200毫秒时间窗口(theta波的周期)处理的,这个时间窗口根据语音的动态进行重置和滑动,音节是皮层语音处理中的一个计算基元。

本研究共招募了六名英语为母语的受试者,右利手。

从DARPA的TIMIT声学-语音连续语音语料库中选择了三个口语句子(“It made no difference that most evidence points to an opposite conclusion.”,“He held his arms close to his sides and made himself as small as possible.”,“The triumphant warrior exhibited naive heroism.”),采样频率为16 kHz。其中两个句子是由女性说的,一个是由男性说的,持续时间在4000-4700毫秒之间。对于每个句子,构建了四种类型的语音噪声混合体:Env4,Fin1,Env1,Fin8,其中Env代表信号的包络,Fin代表信号的细节结构。另一个重要的操纵变量是将信号分成的频带数。Env4,Fin1,Env1和Fin8的可懂度得分分别为0.85,0.7,0.05和0.2(Smith等人,2002)。也就是说它们可以分为–可理解的(原始,Env4和Fin1)和不可理解的(Env1和Fin8)语音信号。然后将原始和混合信号调制到50 Hz的幅度。

在初始扫描中,参与者被呈现1 kHz的音调脉冲(持续时间50 ms),以确定他们的M100诱发反应。然后,告知其所听口语句子的(原始和退化)版本。在每个语音试验中,两个句子间隔1秒,依次呈现;受试者通过按按钮来表示它们是否相同。第一个总是从可理解的集合中选择(原始、Env4、Fin1),第二个总是不可理解的(Env1、Fin8)。每个可理解条件(三个句子,三个可理解条件)都以舒适的响度水平(70 dB)呈现了21次。此外还从TIMIT数据库选择了11个持续时间匹配的其他句子,并构建了它们的不可理解版本(Env1、Fin8)。这些不可理解的语音刺激被随机选择为每个语音试验的第二个刺激。只分析可理解刺激的皮层响应。

首先将不同试验结果分成组内信号和跨组信号,然后通过计算相位和功率来比较它们之间的相似性。使用Cphase和Cpower计算跨试验相干性,并将其在组内和跨组信号之间进行比较。然后将不相似度函数分为五个经典的电生理频带,并计算每个频带内的平均值。最后,通过分类分析对每个单次实验响应进行分类,以确定它们是否属于特定的刺激条件。

1,探究MEG信号中是否包含可以区分不同句子的信息: 研究人员使用了一种称为“within-group”和“across-group”信号的分析方法来确定皮层活动模式与特定句子在单个试验中的表征相关性。研究发现,4-8赫兹频率范围内的theta波相位模式可以成功区分不同的句子刺激,而这种相位模式的区分能力是基于纯粹的相位信息而非功率信息。并且句子刺激不会引起theta波的功率增加,这进一步证明了区分句子的机制是基于内在theta波皮层节律的相位调制。

2,确定皮层节律相位模式是否是区分语音刺激的基础,并探讨其空间分布: 研究人员将相位不相似函数分为五个基本的电生理频带,并检查相应的空间分布。结果显示,theta波相位不相似分布图在听觉皮层(AC)中有明显的起源,并与典型的听觉诱发场分布的双极图匹配。这表明,theta波的相位模式在听觉皮层中跟踪语音刺激。此外,研究人员还发现,theta波相位分布图还表现出右半球的侧化,统计分析进一步证实了这种侧化的显著性。

图1

3,theta波相位模式的分类能力: 为了验证这种模式对于句子分类的特异性,研究人员对每个被试的20个MEG通道中具有最大theta波相位分歧的通道进行了进一步分析发现,所有被试的数据都表现出良好的分类性能,(如图2)每个句子的试验数据被正确分类的比例高于错误分类的比例,表明theta波相位模式可以在单个试验响应中用于句子分类。图3展示了所有被试的分类性能的平均结果。

图2

图3

4,theta波响应的相位与语音材料的可懂度的相关性: 通过对同一句子的降噪版本(语音噪声混合体)进行同样的分类分析,研究人员发现theta波相位模式的区分能力与语音材料的可懂度相关。较不易理解的句子的theta波相位模式可靠性较低,与高可懂度句子的theta波相位模式可靠性相比,分类性能显著降低。这一结果表明,theta波相位模式可以很好地捕捉到语音传输指数的特征。

5,theta波相位模式是否可以反映音频类别: 研究人员对Env4和Fin1响应,以及相应的原始语音信号进行了分类分析,以测试它们的类别。结果表明,theta波相位模式可以反映出相应的音频类别,不同版本的同一句子往往会被归类为相应的句子类别。此外,Fin1刺激的分类性能最低,与相应的较低可懂度得分相一致。

此外,研究人员在单个试验中检查了分类性能的时间进程,提取了记录的MEG反应的时间段(前500毫秒、前1000毫秒、前2000毫秒、前3000毫秒和前4000毫秒),并测试了相同的分类性能。结果显示,基于theta波相位模式的正确分类能力逐渐发展。特别是,在语音句子刺激开始后约2000毫秒,正确的分类开始出现。研究人员进行了一项重复测量的单因素方差分析,确认了时间的显著影响。

图4

6,研究人员还进行了调制和速率控制实验:研究最初使用50 Hz的调制频率进行实验,但后来发现观察到的theta波相位模式的区分能力并不依赖于50 Hz的调制。为了验证这一点进行了没有50 Hz调制的控制实验,并发现仍然可以观察到良好的theta波相位模式分类性能。此外还进行了压缩比为0.5的控制实验,发现仍然可以观察到足够的theta波相位模式分类性能,这表明theta波相位模式与语音的内在皮层处理密切相关。最后对一些不易理解的语音材料进行了分析,发现theta波相位模式的追踪消失,证实了theta波相位模式和语音可懂度的紧密关系。

本研究证明了单次MEG记录中的特定响应属性足以区分句子级别的声学刺激,特别是与可懂语音相关的人类听觉皮层内源theta波的持续相位模式可以有效跟踪句子级别的声学信息。该区分性能随着试验时间的推移而发展,在刺激开始后的1000-2000毫秒强烈存在。能够区分刺激与语音可懂度相关:语音信号可懂度越低,theta相位追踪性能越差。这种观察到的模式与听觉皮层内单个或复杂的发生器一致。研究人员认为,这种测量到的theta响应反映了核心和带状听觉区域之间的相互作用。最后,这些数据累计证明了听觉皮层神经元群体利用theta波相位跟踪的能力与语音可懂度的声学先决条件之间存在紧密联系。 实验结果表明,大脑会通过相位跟踪机制对语音信号进行处理,这种处理方式可能是基于内部稳定的处理节奏实现的这种处理主要在theta频带(4-8Hz)上进行,这与语音信号的时间尺度匹配。大脑对语音信号的处理能力与语音的可懂度有关。 与之前的研究相似,本研究也发现了低频(<10Hz)脑波对语言信息的表征和区分能力,并且证实了语音可懂度与脑波相位追踪之间的关联。不同之处在于,本研究使用自然连续的口语句子进行实验,因此观察到的theta相位模式的区分能力是在生态学上自然的句子级别,而之前的研究主要是在单词级别上观察到的。此外,本研究还系统地改变了语音可懂度,并发现了一种新的自然语音表示机制——内源性theta节律的相位调制。