语音处理的皮层组织（综述）

文献：Hickok, G., & Poeppel, D. (2007e). The cortical organization of speech processing. Nature Reviews Neuroscience, 8(5), 393–402. https://doi.org/10.1038/nrn2113 论文原文

背景： ¶

研究者发现言语感知的神经组织结构难以刻画：1870s研究者们认为言语感知是由听觉皮层支持的。对此有两个反对证据：在韦尼克的失语症中，感知语音能力的缺陷对听觉理解缺陷的影响最小；左侧颞上回STG的破坏并没有导致言语听觉理解障碍，反而导致言语产生障碍。以上不排除左侧STG在言语感知中的作用，但有额外的区域参与此过程。后来人们发现，左侧半球额叶或顶下小叶的损伤导致语音辨别任务困难，强调额顶通路在言语感知中的可能作用。但音节辨别和识别任务的能力与理解听觉呈现词的能力是各自独立的。关于继发于左侧颞叶损伤的韦尼克失语症的听觉理解能力缺陷，有两种看法：（1）语义而非语音过程的破坏；（2）语音和语义表征之间的映射被破坏。被动听任务中呈现言语刺激的研究突出了双侧的优势颞区，而使用类似音节辨别或识别任务的研究发现左侧颞上回STG和左侧额下叶的激活显著（可用工作记忆来解释）。这两个左脑区域的损害主要产生了言语产生缺陷，而非听觉理解问题。由此产生了与左侧STG有关的悖论：“继发于左侧颞叶损伤的韦尼克失语症的听觉理解能力缺陷”与“左脑区域的损害主要产生了言语产生缺陷，而非听觉理解问题”

本文 ¶

本文的目标是描述和扩展一个解决这一悖论的语音加工双流模型。

本文中：语音处理指涉及听觉呈现语音的任何任务；言语感知指代亚词汇任务(比如音节辨别) ；言语识别指代将声音信号转换为与心理词汇联系的表征的一系列计算。作者认为，在导致并包括生成亚词法表示的计算操作中，这两类任务之间存在重叠，但在此阶段之后涉及不同的神经系统。语音识别任务涉及词汇输入过程，而语音感知任务则不需要词汇通达，而是需要让听者在任务执行过程中保持亚词汇表征处于活跃状态的过程，以及招募任务特异性操作

双流模型： ¶

腹侧流，它涉及到颞叶的上部和中部的结构，参与处理语音信号进行理解(语音识别) 背侧流涉及到额叶后部和颞叶后部最背侧以及顶盖的结构，参与将声学语音信号转化为额叶的发音表征，这对于语音发育和正常的语音产生至关重要。作者认为言语感知任务更多地依赖于背侧通路，而言语识别任务更多地依赖于腹侧通路(左侧STG有共同的神经组织)，从而解释了观察到的双重分离现象。该模型表明腹侧流是双侧组织的，而非传统认为的语音处理依赖于左半球。因此，腹侧流本身就包含并行处理流。这将解释单侧颞叶损伤后未能发现实质性的言语识别缺陷。然而，背侧流是强左优势的，这解释了为什么产出困难是背侧颞叶和额叶病变的突出后遗症，以及为什么左脑损伤会严重损害言语感知任务的表现。

腹侧流：声音到意义 ¶

将声学语音输入映射到概念和语义表示涉及多个级别的计算和表示，可能有显着特征、片段（音素）、音节结构、音位词形式、语法特征和语义信息的表示。目前，理解声音和意义之间映射的通路的功能组织方面取得了一些进展。

并行计算和双侧组织 ¶

主流模型假设从声音到意义各个阶段是串联发生的，本文提出的模型认为存在多条通往词汇的路径，这些路径被实现为并行通道，且与许多言语加工的神经机制不同，这个系统是双向组织的，证据：1语音信号中包含多个部分冗余的频谱和时间线索，这些线索可以被听者利用，并且允许语音感知能够容忍一系列信号退化条件。2单侧半球损伤患者、分裂脑患者和接受Wada手术的个体 (一种术前程序,其中一个或另一个大脑半球被选择性麻醉以评估语言和记忆偏侧化模式 )的证据表明，每个半球可能至少有一条通路能够很好地处理语音以进入心理词典。双侧组织证据：1双侧颞叶上区损伤与严重的言语识别缺陷(单词耳聋) 相关，这与言语识别系统是双侧组织的观点一致。2公认的聆听言语激活了双侧颞上回，包括背侧颞上回和颞上沟。最可行的说法是：语音识别系统是双向组织的，但具有重要的计算差异。

多时间分辨率处理 ¶

确定构成词汇项的片段的顺序需要在约 20-50 毫秒的时间窗口中编码信息。为了成功的词汇访问，必须在这个尺度上分析输入信号。音节上携带的超音段信息出现在较长的间隔内，大约 150-300 毫秒。整合这些不同需求的另一种方法是建立一个多时间分辨率模型，其中语音由两个独立的流在这两个时间尺度上同时处理，并且提取的信息被组合用于词汇级别的后续计算。词汇访问可能是由来自每个单独流的信息启动的，但是当片段速率和音节速率信息组合时，最佳词汇访问就会发生。

功能性 MRI 数据支持存在多时间分辨率处理的假设，并且该处理是半球不对称的，右半球显示出对长期整合的选择性。左半球对不同整合时间尺度的反应选择性较低。研究者认为在较长时间尺度上整合信息的神经机制主要位于右半球，而在较短时间尺度上整合的机制可能更多地出现在双侧。左半球专门用于处理快速时间信息的传统观点缺乏证据支持。另一种可能性是左半球可能比右半球更倾向于处理或更明确地表示声学信息，可以解释在语音感知的功能激活研究中发现的一些不对称性。

语音处理和 STS ¶

STS 颞上沟的某些部分对于表示和处理语音信息很重要，由需要访问语音信息的语言任务激活。STS 各部分可能对包含音素信息的声学信号具有相对选择性，一系列研究集中在 STS 上，将其视为对语音级过程至关重要的站点。许多研究发现，在语音处理过程中，STS 的前部会被激活，这表明这些区域在腹侧流语音过程中具有重要且独特的作用，与后部区域形成腹侧流的主要投射目标的典型观点形成对比。此外，最近的几项功能成像研究表明前颞区参与句子级处理，这表明句法或组合过程可能驱动大部分前颞区激活。鉴于大量证据表明左后颞叶破坏会导致听觉理解缺陷，后 STS 区域不是腹侧流的一部分的说法是可疑的。腹侧投射通路可能向后和向前延伸。作者认为，涉及音韵级过程的 STS 的关键部分在前部以 Heschl 回的最前外侧为界，在后部以外侧裂的最后部为界。这对应于“音韵”处理的激活分布，如图3所示。

词汇、语义和语法联系： ¶

有强有力的证据表明后中颞区参与获取词汇和语义信息。来自听觉输入的词汇语义访问涉及后外侧颞叶。在句法和组合语义操作方面，神经影像学证据支持将 ATL 作为计算网络的重要组成部分；但神经心理学证据仍然不充分。

背侧流：声音到动作 ¶

普遍认为，听觉腹侧流支持对听觉对象（如语音）的感知和识别，而关于听觉背流的功能作用的共识较少。作者和其他研究者提出听觉背侧流支持与运动系统的接口

听觉-运动整合的需要： ¶

语言中听觉-运动相互作用必要性的最简单论据来自发展。学习说话本质上是一项运动学习任务。对此的主要输入是感官，尤其是言语。因此，必须有一种神经机制既能编码又能保持语音实例，并能利用这些感官痕迹来指导语音手势的调整，从而准确地再现声音。言语发展是作者所提出的背侧听觉-运动整合回路的主要和关键功能，并且它在成人中也继续发挥作用，这种听觉-运动回路为语音短期记忆提供了基本的神经机制。作者建议至少有两个层次的听觉-运动相互作用——一个涉及语音片段，另一个涉及片段序列。音段级过程将涉及基本发音语音技能的习得和维持。片段序列水平的听觉-运动过程将参与新词汇的习得和语音序列的在线指导。新词汇习得过程中的听觉-运动相互作用涉及生成新词的感官表征，该表征对片段或音节的序列进行编码。然后可以使用这种感觉表征来指导运动发音序列。随着这个词变得熟悉，感觉-运动相互作用的性质可能会发生变化。新的、低频或更复杂的词可能需要递增的运动编码，因此比已知的、高频或更简单的词需要更多的感官指导，这些词可能会“自动化”为几乎不需要感官指导的运动组块

感觉运动背侧流的损伤证据： ¶

左半球听觉相关区域的损伤通常会导致言语产生缺陷，这表明感觉系统参与了运动言语。更具体地说，左侧背侧 STG 或颞顶交界处的损伤与传导性失语症有关——有充分的证据表明后者是由皮质功能障碍引起的。作者认为传导性失语代表听觉-运动界面系统的中断，特别是在片段序列水平上。言语理解得以保留，因为病变不会破坏腹侧流通路和/或因为右半球言语系统可以补偿左半球言语感知系统的破坏。语音错误的发生是因为语音的感官表征无法提供语音排序的在线指导；这种效果对于较长、较低频率或新颖的单词最为明显，因为这些单词比较短、较高频率的单词更依赖感官参与。

总结： ¶

本文概述的双流模型旨在整合广泛的经验观察，包括基本感知过程、言语发展和言语产生的各个方面、语言和心理语言学事实、言语工作记忆、任务相关效应、感觉运动整合电路和神经心理学事实，包括失语症中的保留和丧失模式等。这篇文章可以帮助我了解语音处理的相关知识，是对我之前阅读过的文献资料的一个很好的补充。