运动皮层映射语音的发音特征



文献:Pulvermuller, F., Huss, M., Kherif, F., Moscoso del Prado Martin, F., Hauk, O., & Shtyrov, Y. (2006). Motor cortex maps articulatory features of speech sounds. Proceedings of the National Academy of Sciences103(20), 7865–7870. https://doi.org/10.1073/pnas.0509989103

论文原文

语音感知是指我们对听到的话语进行分析和理解的过程;语音产生则涉及到我们如何将想法转换为可听见的话语。关于语音感知与语音产生之间的关系:传统上,语言的神经学理论认为在左侧颞上叶和额叶下回区分专门的模块中心,分别负责语言感知和语言产生。这种独立的语言产生和感知模块与许多神经成像研究相一致,特别是在语言产生期间,额叶回路变得最活跃,而语言输入主要激活左侧颞上回和沟。

与这种观点相反,神经生物学模型认为言语感知与生产机制有关。心理语言学也提出了类似的观点。言语感知的直接现实主义理论假设言语的运动表征和知觉表征之间存在联系。Liberman等人的(言语感知的)运动理论认为,语音感知需要获得语音特定和固有的音位表征。而神经生物学模型认为发音和感知机制之间的联系并不一定是言语特异性的,但可能类似于一系列非语言行为的动作感知联系。 运动理论最早由利博曼(Liberman)于1967年提出,该理论的核心观点是,人们在理解和解释语音时,依赖于自身的发音动作。该理论的关键预测:如果运动信息对于识别语音很重要,那么语音的特征信息应该反映在我们的运动系统中,尚未得到解决,本研究针对这一关键预测,试图确定在言语加工过程中,语言优势半球的感觉运动皮层中是否存在关于语音区别特征的信息。对此,关键问题是这些特定的运动神经(皮层)结构是否也会被传入的语音信号差异激活。

为研究这一关键预测,进行了一组功能性磁共振成像(fMRI)实验。

12名(女7,男5)右利手的单语母语英语者作为被试,听力正常,无神经、精神疾病及药物滥用史。整个实验过程,被试躺在扫描仪中,避免做任何要求外的运动。

按照顺序进行三个实验: 首先是,语音感知实验,分为两个部分,每部分24分种;然后进行发音定位实验,约5.4分钟;最后是非言语运动定位实验,约3.2 min。 下面以相反的顺序描述这些实验,因为运动和发音实验是用来定位语音感知实验分析的关键区域。

受试者要在字面指示下重复嘴唇和舌尖的微小动作。当被试看到屏幕上呈现的“lips”或“tongue”时,要做出相应部位的动作,字面提示持续16S。当屏幕上出现“十”字时,受试者休息。每个任务发生四次,共产生12个block,这些block以伪随机顺序呈现,避免连续呈现相同类型的block。在实验前,被试短暂的练习了舌尖和嘴唇的最小交替上下运动。提醒受试者尽量减少运动,并尽可能避免闭唇或舌腭接触的体感自我刺激。

受试者看到屏幕上呈现的字母串时,“PIH”、“PAH”、“TIH”或“TAH”,无声地读出相应的读音:[pI], [pæ], [tI], [tæ] ,字母串同样在屏幕上呈现16S,在这整个过程中,受试者要反复执行相应的发音动作。当屏幕上出现“十”字时,受试者休息。每个字母串出现四次,从而产生20个block,这些block以伪随机顺序呈现。

该实验的语音刺激材料包括以下四种音节:[pI], [pæ], [tI], [tæ]。每种类型的音节由同一位母语为英语的女性所发出的,从中选出彼此最大程度相似的项目。然后对四种音节进行调整,使它们在长度、声强、F0频率和声音开始时间上完全匹配。通过对语音刺激进行快速傅立叶变换分析,然后根据音节的频率分布和包络调制白噪声,为每种音节生成匹配的噪声刺激。这些噪声刺激也在长度、声强、F0上与其对应的音节相匹配。然后再从每种音节和每种噪声模式中,通过对F0频率分别增加和减少2%和4%,产生4种变体,从而产生20种不同的音节和20种不同的噪声模式(每种类型5种;共40种不同的刺激)。

语音和匹配的噪声刺激通过非磁性耳机呈现。要求受试者在实验过程中倾听并注意声音,避免任何动作。为了降低扫描仪的噪声干扰,采用了"稀疏成像"范式。刺激出现在MRI扫描之间的1.6 s间隔内,每个间隔也持续1.6 s。所有言语和噪声刺激均为200 ms;起始时间与之前的扫描仪噪声随机偏移0.4 ~ 1.2 s。最终将八种刺激类型中的每一种的100个刺激和100个空事件,以伪随机的顺序呈现给每个被试。

使用3T的磁共振系统(Bruker, Billerica, MA)的头线圈进行扫描;采用回声平面成像(Echo-planar imaging, EPI)技术进行扫描。 各组数据采用随机效应分析。如果27个或更多相邻体素都通过P= 0.05修正的阈值,则认为在特定条件下大脑位点被激活,运动和发音活动是相对于休息基线计算的,而对于语音感知条件,激活是相对于平均噪声诱发活动计算的。为控制多重比较带来的假阳性风险,研究者采用了家庭误差(family-wise error, FWE)和假发现率(false discovery rate, FDR)这两种校正方法。 激活簇中具有最大f值的体素的立体定向坐标报告在MNI标准空间中。MNI标准空间是由蒙特利尔神经研究所开发的一种脑部图像的空间参照标准。这种空间参照标准是基于一系列正常人的脑部MRI图像建立的,主要用于脑部图像数据的分析和处理。

运动强烈激活了双侧感觉运动皮层,感觉运动皮层的最大激活未显示出任何偏倚。激活峰位于蒙特利尔神经学研究所(MNI)标准坐标(56, 6, 26)和(62, 0, 28),统计比较结果无显著差异 (ROI: 59, -3,27; P > 0.2)。唇部和舌头运动条件下激活了皮层的不同模式。在左、右下中央前回和中央后回,唇运动(以红色表示)相关的激活位于舌运动(以绿色表示)的背侧。在MNI标准坐标(-48,-10,36)和(-50,-10,46)处,唇部运动的左半球激活最大;在(-56,- 8,28)和(-56,0,26)处舌头运动时左半球激活最大。这些激活最大值位于左侧中央前和中央后感觉运动皮层。所有激活均延伸至中央前回。

图1

发音任务在额中央皮层(frontocentral cortex)引起了广泛的激活模式,特别是在左半球,发音动作之间存在差异:与运动任务的结果一致,涉及舌头的发音/t/激活了下中央前回(inferior precentral area ),而涉及唇部的发音/p/激活了这一舌头相关位点的背侧和腹侧的运动皮层和前运动皮层。在中央前回,舌头相关动作的激活斑块在发音任务和运动任务之间相似和重叠,嘴唇相关运动任务和发音任务之间也存在类似的重叠。

图2

基于运动定位和发音定位实验,选择语音感知实验的ROI: 在运动实验中被激活的区域中,选取被唇部和舌部运动激活最强烈的中央沟体素作为8毫米半径ROI的中心,这些ROI分别对应于唇部(坐标:-56,-8, 46)和舌部(坐标:-60,-10,25)的运动。此外,还选择了两个中央前回的ROI(唇部前中央ROI:-54, -3,46;舌部前运动ROI:-60, 2, 25)。在发音实验中,中央前回ROI也被唇部相关音位[ p ]和舌部相关音位[ t ]的发音差异激活。

为了检验运动和发音加工中的唇和舌运动区域是否因唇和舌相关音素的感知而被不同地激活,研究了中央后和中央前roi的言语诱发激活。结果显示: 在中央前ROI显示了发音部位与ROI的显著相互作用(P< 0.021):在腹侧ROI中,[ t ] 相关音素比[ p ] 相关音素诱导的活动更强,而在背侧中央前回中则相反。中央后ROI中,发音部位与ROI的无显著交互作用(P> 0.2)。

图3

为了进一步补充结果,研究者对更大范围内运动带的激活进行了分析: 沿标准MNI大脑的中央沟,在垂直( z )坐标20和50之间,排列7个区域链[在垂直( z )方向上半径为5 mm ,球心距为5 mm的球体]。 在此区域链前5 mm处,在中央前回定义7个这样的区域线,最终得到2 ×7= 14个区域。

然后进行了发音部位(舌头/嘴唇)×正面(中央前/中央)×背向性(七个区域,从下到上)三因素方差分析: 在这三个实验中,均表现出显著的发音部位和背向性的双向相互作用,证明了与唇舌相关的动作、发音和言语感知对额中央区皮层frontocentral cortex 的差异性激活。在发音和言语感知中,差异最明显的激活位于中央前回,而在非言语运动任务中,差异激活在中央部位最明显。研究没有发现元音音素与发音器官因素或脑区有显著的交互作用。因此,从这个分析集中,我们没有找到支持元音特定运动激活差异或[p]和[t]在不同元音语境中区域特异性差异激活变化的有力证据。

在执行语言感知实验时,虽然要求受试者避免任何运动,但可能会出现不自主的运动,这可能会影响结果。为了控制这种潜在的影响,进行了肌电运动对照实验的方法。 为了避免重复效应,另选八名被试(平均年龄25.3岁)。是对fMRI语言感知实验的精确复制,包括MRI仪器的扫描噪音。成对的EMG电极放置在嘴部左、右上方和下方(总共八个电极)的标准EMG记录位置,监测口轮匝肌的神经电生理活动。 结果: 对肌电图(EMG)数据的分析未能揭示受试者在听以[p]和[t]开头的音节时唇肌神经生理活动的显著差异。这一结果排除了在fMRI研究中看到的中央前回的差异激活与音节感知引起的外周运动系统的显性运动活动有关的可能性。

本研究结果对于前人的研究或理论的解释:

1,本研究分别定义了发音和运动任务中涉及舌头和嘴唇的差异激活区域,因此可以说在语音感知实验中,这些相同区域的差异激活包含了语音刺激的发音特征信息,此发现支持语言神经生物学模型的假设。 2,而对于运动理论,该理论认为我们的大脑需要模拟发音的动作来帮助识别听到的语音。这里给出的数据符合这一理论的内在假设。但神经影像学的证据并不能直接证明这一点。因为神经影像学只能显示大脑在进行某项活动时的活跃区域,而不能证明这些活跃区域是否真的参与了这项活动的认知过程。研究结果不能直接证明运动理论的观点,但提供了一些间接证据,表明在理解语言的过程中,我们的运动系统可能确实发挥了作用。 ,3,研究结果反对模块化理论,该理论认为语言存储在封装模块中,远离其他感知和运动过程,这些模块致力于语言和语音的产生或理解。相反,研究发现语言的产生和理解存在共同的语音特异性神经元基质。

4,对于本研究结果的语言学解读: 结果可能被解释为音位的知觉表征或知觉音位过程定位于前中央皮层。但本文的数据不支持将音位假设为认知和具体的神经实体的观点。这些数据与假设音系系统的模型是兼容的,其中音位的区别特征是相关的表征单位,而不依赖于音素本身的体现。 对本结果更合适的语言学解释是:发音的语音特征—— [舌尖])和[双唇],在言语感知被获取,并且这一获取过程涉及中央前回特定的区域