语音处理中的感觉运动整合:计算基础和神经组织



文献:Hickok, G., Houde, J., & Rong, F. (2011). Sensorimotor integration in speech processing: computational basis and neural organization. Neuron, 69(3), 407–422. https://doi.org/10.1016/j.neuron.2011.01.019 论文原文 感觉运动整合是言语研究的一个活跃领域,主要有两种观点:听觉系统主要参与言语产生,运动系统主要参与言语知觉。尽管这些观点相辅相成,但这些文献之间几乎没有结合。 本文提出了一个与语音相关的“背侧束“的综合模型,其中感觉运动交互作用来支持语音的产生,以状态反馈控制(SFC:state feedback control)架构的形式。这种控制系统的关键是前向感觉预测,它提供了一种自然机制来限制运动对知觉的影响。证据表明,这种影响是可调节的,但不是言语感知所必需的。 本文讨论了所提出的通路的神经解剖结构和一些可能的临床相关因素,包括传导性失语、口吃和精神分裂症的某些方面。

声学对言语输出的影响表现在: 一,延迟听觉反馈的干扰效应 二,听觉对长期保持语音的清晰至关重要,如在精通一门语言后变聋的人,由于缺乏听觉反馈而导致言语清晰度下降。 三,对语音、词汇和句法层面上的语音错误模式的研究表明,感知系统在语音输出(包括显性语音和内在语音)的中提供了反馈信号,指导言语产生的修正过程。 四,研究表明,对他人言语模式的感知会影响听者的言语模式。(如,口音的习得)这一点在发育过程中表现得最为明显,在这个过程中,语言前儿童的声学输入决定了他/她获得的言语模式。 总之,听觉系统在语音产生中起着重要作用,这是毋庸置疑的。

计算上,语音产生背景下的听觉-运动交互被描述为反馈控制模型。费尔班克斯提出,言语目标是由一系列期望的感官结果表示的,发音人是由一个最小化期望和实际感官反馈之间误差的系统驱动来产生语音的。这种感觉反馈可以作为在线控制语音输出的基础的想法,但存在几个实际问题:稳定的反馈控制要求无噪声、无延迟的反馈,但真实的感觉反馈是有噪声的(例如,由于背景噪声)、延迟的(由于突触和处理延迟),特别是在听觉反馈的情况下,间歇性缺失(例如,由于大声掩蔽噪声)。为了解决这些问题,一些基于反馈的模型被混合,从状态反馈控制(SFC)理论派生的运动控制的新模型采取了一种更有原则的方法。在SFC模型中,即时发音控制是基于反馈的,但在这种情况下不是直接的感官反馈。相反,即时反馈控制来自声道当前动力状态的内部模型判断。内部判断是基于先前了解到的发出的运动指令和实际感觉结果之间的联系。一旦学会了这些关联,内部系统就可以在实际感觉反馈到来之前预测运动指令可能产生的感觉结果,如果可能的感觉结果与预期结果不同,就可以利用这些预测向运动控制器提供快速的纠正反馈(图1A)。因此,在SFC框架中,即时反馈控制主要通过内部前向模型的预测实现,而实际反馈用于训练和更新内部模型。此方法类似于心理语言学的自我监控。

图1

图1A描述了在言语产生的运动控制背景下的SFC架构,改编自Ventura等人。在这个框架中,运动控制器向声道发音器发出的运动命令伴随着对声道内部模型的必然放电,这代表了根据系统最近的经验和传入的(必然的)运动命令对声道动态状态的判断。这种状态判断被转换为对运动指令下声学结果的前向预测。 前向听觉预测支持两个功能: 一,内部快速监测功能,它计算当前的运动指令是否有可能击中预期的感官目标(这意味着目标是独立于远期预测而可知),并在必要时提供正确的反馈。内部反馈的有用性取决于前向预测的准确性。因此,使用实际的感官反馈来更新和调整内部模型以确保其做出准确的预测是很重要的。 二,外部监测功能(较慢):将预测结果与实际感觉结果进行比较,并使用预测误差产生纠正信号来更新内部模型,该内部模型反过来为运动控制器提供输入。如果内部反馈监测未能及时捕捉错误,外部反馈也可以用来纠正动作。

如上所述,如果不知道预期的感官目标,则生成动作感官后果的前向预测的内部反馈循环是无用的。在大多数言语行为中,没有直接的外部提供的感官目标(除非是重复听到的言语)。言语行为的感官目标是一种基于更高层次目标(即通过与该概念对应的单词或短语来表达概念)从记忆中唤起的内部表征(例如,一组言语声音)。这意味着语言的产生不仅涉及运动言语表征的激活,还涉及感觉言语目标的内部表征,这些内部表征可用于与运动语言行为的预测和实际结果进行比较。

研究发现,运动系统不是解决言语知觉中的语境依赖问题所必需的,而听觉系统似乎有解决这个问题的机制

经颅磁刺激(TMS)和功能成像实验发现,在没有明确运动任务的情况下,语音感知足以以一种高度特定的方式激活(或增强)运动语音系统,但目前还不清楚这种激活是否与语音识别有因果关系,或者是偶发的,反映了相关网络之间的传播激活。因此有研究尝试通过运动-语言刺激来调节知觉反应: 一项研究表明,刺激前运动皮层会导致识别噪音中音节的能力下降 第二项研究在感知清晰的语音刺激时刺激腹侧前运动皮层,并发现在几种语音感知测量的准确性上没有影响,但在一项任务中的反应时间变慢了。 第三项研究发现,刺激嘴唇或舌头运动区域时,识别与嘴唇或舌头相关的语音更容易(更快的反应时间) 第四项研究发现,刺激嘴唇运动区域会导致识别与嘴唇相关语音的能力下降。以上,只有当语音部分模糊和/或当行为测量是反应时间而不是准确性时,这些效果才会出现。 这表明,运动系统对知觉的影响是调节性的,而不是语音识别的必要组成部分。

Spt区:位于顶叶-颞叶边界的西尔维安裂(左侧颞平面区域),且与额下回后部在解剖学上紧密相连(白质束)。是听觉相关的区域,该区域也参与了语音的产生,表现出许多感觉-运动整合区域的特性。最基本的是,Spt表现出感觉运动反应特性,在语音被动感知和隐蔽语音发音过程中都会激活(隐蔽语音用于确保显性听觉反馈没有驱动激活)。Spt不是特定于语音的;当感觉刺激是音调旋律和(隐蔽)哼唱为运动任务时,它的感觉运动反应同样稳健(见图2B中的两条曲线)。Spt的活动与额下回后部(pars opercularis)的活动高度相关。Spt具有运动效应器选择性,当运动任务涉及声道时,Spt的反应比手动效应器更强烈(图2D)。总之,Spt位于听觉和运动区域网络的中间,在功能和解剖学上完美定位,支持语音和相关声道功能的感觉运动整合。

图2

Spt是SFC系统的一部分,Spt区与包括STG、运动前皮层和小脑在内的区域网络一起参与了语音产生的听觉反馈控制。Spt附近的损伤与传导性失语症有关,这些患者对延迟听觉反馈的正常破坏性影响的敏感性降低。

关于与Spt相关的颞平面的功能可被分离,一个部分支持感觉运动整合,其他部分支持其他功能,如空间相关过程。证据如下: 首先,颞平面由几个细胞结构组成,其中最后的Tpt区位于听觉皮层固有区之外。这表明一个多功能组织主要分为听觉皮层(前部)和听觉相关皮层(后部)。其次,Spt位于颞平面更后方的区域,这与它作为听觉和运动系统之间接口的功能作用相一致。最后,最近的一项实验直接比较了受试者的感觉运动和空间激活,发现在颞平面内存在空间不同的激活模式(感觉运动激活位于空间激活之后),以及扩散张量成像揭示的两个激活焦点的不同连接模式。因此,后颞平面区Spt的感觉运动功能与较前区的听觉功能是可以区分的。

本文提出一种模型,不仅借鉴了SFC理论的最新发展,还试图整合来自心理语言学和神经语言学研究的语音处理模型。该模型可以被视为“背侧”听觉/语音流(语音处理的双流模型的一部分)所涉及的计算指令的替换,语音处理的双流模型的一部分(例如,图3)

图3

通过合并图1中的三种模型,可以推导出语音产生系统的集成模型。这个集成模型如图4所示。

图4

从反馈控制、心理语言学和神经语言学文献中衍生出来的言语模型被整合到一个框架中,在这里提出。这种结构基本上是SFC系统的结构,带有一个或一组控制器,定位于初级运动皮质,向声道产生运动命令,并将必然的放电发送到内部模型,该内部模型对声道的动态状态和这些状态的感觉结果做出前瞻性预测。 预测的听觉状态与预期目标或实际感觉反馈之间的偏差产生误差信号,该误差信号用于校正和更新声道的内部模型。 声道的内部模型被实化为‘’运动语音系统‘’,它对应于神经语言学阐明的语音输出词典,并定位于运动前皮质。 听觉目标和对感觉结果的前向预测被编码在与神经语言学阐明的语音输入词典相对应的听觉语音系统,并定位于STG/STS。运动和听觉语音系统通过听觉-运动翻译系统联系在一起,定位于SPT区域。该系统通过从词汇-概念系统到运动和听觉语音系统的平行输入而被激活。

作者认为,对习得的运动序列进行编码的神经元集合形成了声道的内部前向模型,从某种意义上说,激活一个语音序列的代码,就立即对声道的未来状态(即与特定的声音序列的发音相对应的状态)进行了预测,比如在发音cat这个词时,单词CAT的高级运动集合编码的激活,驱动了控制器中该序列的执行。从运动控制器到高级运动语音系统的必然放电,可以提供有关声道在给定时间点在运动序列中的位置的信息(预测)。或者与较低水平的运动系统联合,如额小脑回路,可以根据发音的细节,考虑速度、疲劳等因素,填补声道在预测序列中的位置细节。 运动音系表征的激活不仅对声道的状态做出前向预测,而且当转换为感官表征时,还对运动的感官后果做出前向预测:如果系统激活生成单词cat的运动程序,感官系统可以预期听到单词的声学相关内容。因此,激活运动语音系统可以在听觉语音系统中产生预期的感觉后果的预测。在该模型中,感觉事件的前向模型在感觉系统中实例化。 韦尼克提出,说出一个单词涉及到运动和听觉语音系统的平行输入,或者说运动和听觉语音系统。本文假设语音产生网络的激活涉及对运动和听觉语音系统的平行输入。听觉部分的激活包括动作的感觉目标,而运动语音系统的激活定义了初始的运动计划,通过内部反馈循环可以与感觉目标进行比较。在SFC框架中,听觉语音系统受损会导致语音错误,因为正常情况下检测和纠正错误的内部反馈机制不再起作用。

传导性失语症是一种视觉性失调的语言模拟,患者可以理解语言,但很难逐字重复(即,实现呈现给他们的听觉目标),通常在他们频繁的音位错误和反复的自我纠正尝试中口头“摸索”适当的声音序列。现代资料表明,以颞-顶叶交界处(重叠区Spt)为中心的皮层损伤是失语症的来源。且有证据表明,传导性失语症患者对延迟听觉反馈的干扰效应的敏感度降低,支持语音产生的听觉反馈控制的电路会受到损害。 就本文的SFC模型而言,Spt的损伤将破坏听觉皮层产生前向预测的能力,从而破坏内部反馈监测的能力,使错误比未受损的系统更频繁(图5A)。然而,这不会破坏通过词汇语义系统激活的STS中的高级听觉目标,从而使患者能够检测自己说话中的错误,这是传导性失语症的特征。然而,一旦检测到错误,由于Spt的中断,校正信号将无法准确地转换到声道内部模型。具有检测但不能准确纠正语音错误的能力,会导致反复失败的自我纠正尝试,这也是传导性失语症的特征。SFC系统中的预测/纠正机制的完全中断可能会导致语音输出逐渐恶化,但传导性失语症不会发展为无望的恶化。这可能是因为来自体感系统的感觉反馈仍然完整,足以保持系统的合理调整,或者因为存在其他的听觉反馈控制路径。

图5

发展性口吃是一种影响语言流利性的障碍,在言语产生过程中,声音、音节或单词可能重复或延长。发育性口吃与听觉皮层的感觉-运动整合功能障碍有关(目标被精确编码),但声道内部模型和由Spt介导的感觉系统之间的映射是嘈杂的(图5B)。感觉和运动系统之间的噪声映射仍可训练内部模型,但对于给定的语音,由于映射函数方差的增加,语音手势的前向感官预测往往会产生错误的预测。当与准确表示的感知目标进行比较时,这些不正确的预测又会触发无效的错误信号。这导致了感觉到运动的“错误”纠正信号,这本身是不准确的。这样,系统最终会进入一个不准确的、反复的预测-纠正循环,从而导致结巴。合唱讲话(当其他人说同样的话时)可以极大地提高口吃者的流利度。这可能是因为感官系统(正在编码不准确的预测)被与感官目标匹配的外部声音输入轰炸,从而淘汰并覆盖不准确的预测,实现流利的言语。

精神分裂症的一个突出的积极症状是幻听,通常包括可感知的声音。最近有研究认为,这种症状是由运动语言行为的前向预测功能障碍引起的:运动-感觉必然放电的一个重要附加功能是区分自我产生的动作和外部产生的动作。如果与言语行为相关的必然放电被用来区分自我产生的言语和外部产生的言语,且这个系统在精神分裂症中是不精确的,自我产生的言语(甚至可能是无声的言语)可以被认为是外部产生的,即幻觉。与这一假设相一致的是,最近的一项研究发现,幻觉患者并没有表现出对自我产生的语音的听觉反应的正常抑制,而且异常程度与幻觉的严重程度和自我产生的语音的错误归因都相关。精神分裂症患者也有颞叶平台的解剖异常,特别是在左半球尾侧区域(对应于Spt的位置)的上皮层(I-III,皮质-皮质层)。在精神分裂症患者中,行为和生理影响的性质(涉及感觉运动整合)、解剖异常的位置(左侧后PT)和涉及的皮质处理水平(皮质-皮质)都与累及SPT的区域功能障碍相一致。

对言语中感觉-运动整合的研究通常是分裂的,有的研究注重感觉系统在言语生产中的作用,有的研究注重运动系统在言语感知中的作用,本文将二者整合起来,提出感觉运动整合的存在是为了支持言语生成,即学习如何清晰表达自己语言的声音,保持运动控制过程的协调,支持即时错误检测和纠正的能力。作者认为这是通过状态反馈控制机制实现的。 本文提出的SFC模型本身将心理和神经语言学的工作与语音产生的SFC模型相结合。从神经解剖学角度看,此模型可以被视为先前提出的背侧语音流模型的精化。此构想的进步之处在于:展示了模型如何适应运动对感知的影响,状态反馈控制模型如何与言语过程的心理语言学和神经语言学模型有关,以及前向预测如何与注意力机制有关。本文提出的这些假设,可以为言语处理的感觉-运动整合的未来工作提供一个框架。