大脑皮质网络在人类语音产生过程中处理听觉错误信号以保持流畅性

文献：Ozker, M., Doyle, W., Devinsky, O., & Flinker, A. (2022). A cortical network processes auditory error signals during human speech production to maintain fluency. PLOS Biology, 20(2), e3001493. https://doi.org/10.1371/journal.pbio.3001493 论文原文

Introduction ¶

人类言语的产生受到听觉反馈的强烈影响。当我们说话时，我们不断地监控我们的声音输出，并调整发声以保持流畅。如：当说话者听到自己说话有延迟时(如，电话中的声音延迟或回声)，他们通过放慢速度和重新设置讲话来补偿听觉反馈延迟。人类发声的这种补偿性调整为实时检测和纠正发声错误的机制提供了证据。异常的听觉反馈控制与多种疾病有关，包括口吃、失语、帕金森病、自闭症谱系障碍和精神分裂症，但对这个系统的神经基础仍然知之甚少。言语运动控制的计算模型表明，在言语产生过程中，大脑使用运动指令的传出副本来产生言语输出的内部估计。当实际反馈与内部估计不同时，产生一个错误信号来纠正内部估计并更新必要的运动命令以产生预期的语音。人类神经外科记录和神经影像学研究表明，这些听觉反馈所诱导的声音调整伴随着听觉区域的神经反应增强。操纵听觉反馈频谱特征的另一种方法是通过实时延迟声音反馈来改变其时间特征，称为“延迟听觉反馈(DAF)”。DAF严重破坏语言流畅性，导致语速减慢，停顿，音节重复，音调或强度增加。虽然DAF因可以提高口吃患者的语言流畅性而应用于口吃和帕金森病的语言治疗，但只有少数神经影像学研究调查了神经反应。研究表明，与正常的听觉反馈条件相比，延迟反馈时双侧后上皮层的反应增强。而语音产生和再传入反馈处理背后的皮层网络的确切时间动态和空间分布仍然未知。高时空分辨率的皮质电图(ECoG)可用于探究这个问题。

设计： ¶

被试： ¶

15名癫痫患者(8名女性，平均年龄34岁，2名右侧，9名左侧，4名双侧半球覆盖)。

参与者在病床上休息时接受了测试。视觉刺激被呈现在笔记本电脑屏幕上，放置在离参与者舒适的距离处。听觉刺激通过耳机提供，参与者的语音使用外部麦克风记录。实验包括单词阅读和句子阅读。在单词阅读部分共使用了10个不同的3音节单词(如“document”)，在句子阅读部分使用6个不同的8音节句子(如“the cereal was fortified with vitamins and nutrients)”)。文本刺激在屏幕上呈现出来，要求参与者大声朗读出来。当参与者说话时，他们的声音用笔记本电脑的内部麦克风记录下来，使用自定义脚本以4种不同的量(无延迟，50ms, 100ms 和200ms)延迟，并通过耳机播放给他们。不同反馈延迟量的试验(每延迟重复18 ~ 60次)随机呈现，每次试验间隔至少为1秒。 ECoG记录来自植入硬膜下的铂铱电极。

电极选择 ¶

研究记录了15名参与者的1,693次硬膜下和608次深度电极接触。电极检查与语言相关的活动，定义为显著的高伽马宽带反应。对于DAF单词阅读任务，选择在语音开始前(-0.5秒至0秒)或在语音开始后(0至0.5秒)相对于基线周期(-1至0.6秒)表现出显著响应且同时在这两个时间窗口中都具有较大的信噪比的电极。对于DAF句子阅读任务，采用相同的标准，只是语音开始后的时间窗口更长(0到3秒)。首先对每个任务分别进行电极选择，然后对两个任务共同选择的电极进行进一步分析。

DTW（dynamic time warping）分析 ¶

在句子阅读任务中有6个不同的句子。对6种不同的句子刺激分别进行动态时间弯曲（DTW)分析。首先，对每个句子刺激的语音谱图进行频率平均。然后，对相同句子刺激的试验(如没有延迟地呈现句子1的试验)的平均谱图进行平均。然后，执行DTW来比较无延迟和200毫秒延迟条件下的平均谱图(如无延迟的第1句与200毫秒延迟的第1句)，并将所得的弯曲路径应用于每次试验的神经响应信号。最后，对每个句子刺激的神经反应进行平均。这个过程是为了比较两种导致最大神经反应差异的条件(无延迟和200毫秒延迟)。

统计分析 ¶

以单词和句子的发音持续时间为因变量，以延迟条件为自变量，通过左向方差分析确定DAF对言语行为的影响。参与者被引入作为一个因素来解释重复的测量。为了确定不同条件下神经反应幅度的显著差异，以延迟条件为自变量，对所有电极上的所有试验进行了单因素方差分析，比较了指定时间窗内的平均高伽马活动。通过对参与者进行单因素方差分析确定神经反应持续时间的显著差异，以反应持续时间为因变量，延迟条件为自变量。为了评估记录位置对DAF的敏感性，计算每个电极的神经反应与延迟条件之间的Spearman相关性。为了比较DAF对单词和句子阅读任务的敏感性，使用配对t检验比较电极的敏感性指数。为了揭示在句子阅读任务中对DAF的反应增强如何随时间变化，在每个时间点进行单因素方差分析或配对t检验。然后使用错误发现率(FDR)方法对多重比较进行校正。

结果： ¶

首先分析了参与者的录音，并测量了不同延迟量下的发音持续时间，以确定DAF的行为效应(图1A)。发音持续时间随延迟略有增加。在言语产生过程中，在显著活动的电极之间表现出两种反应模式。1，位于STG颞上回中的代表性听觉电极显示(图1C)，神经反应在言语发作后开始，其振幅随着延迟而显著增加。2，在vPreCG腹侧中央前回的代表性运动电极上(图1C)，神经反应在言语发作之前开始，其幅度不受延迟的影响。这一结果表明，DAF影响了与语音处理有关的听觉部位的神经反应。

为了描述大脑中两种主要的反应模式，使用NMF算法对所有延迟条件、大脑部位和参与者的神经反应进行了无监督聚类分析。聚类分析确定了由2个不同的聚类所代表的主要反应模式，证实了在单个参与者中显示的代表性结果(图1C-1E)以及对参与者数据的视觉检查。第一个反应模式(簇1,N = 125电极)在言语开始后开始，在320毫秒达到峰值，幅度变化达到115%。第二个响应模式(簇2,N= 253个电极)开始得更早，大约在语音开始前750毫秒，在语音开始后140毫秒达到峰值，幅度变化达到60%(图2A)。这两个簇具有明显的解剖分布(图2B):簇1主要定位于STG，提示有听觉功能，而簇2定位于额叶皮质，提示有前运动和运动功能。接着又检查了DAF对这两个集群的影响。在簇1中，神经反应的振幅随着延迟而显著增加(图2C)，但在簇2中没有(图2D)。神经反应的持续时间在任何一组中都没有显著增加。

用DAF阅读单词会略微延长发音持续时间，虽然会增加听觉区域的神经反应，但不会影响运动区域的反应。研究者假设更长、更复杂的刺激可能会引起更强烈的行为反应，当发音受到强烈影响时，运动区域会表现出DAF效应。为了验证这一预测进行了另一项实验，让参与者在DAF期间大声朗读句子。

事实上，在DAF期间，发音较长的语音片段(8个单词的句子)导致了明显更强的行为效应(图3A)，发音持续时间随延迟显著增加(图3B)。检测位于STG的代表性听觉电极对DAF的神经反应(图1C和3C)，发现神经反应幅度随着延迟而显著增加(图3D)。在位于vPreCG的代表性运动电极中(图1C和3C)，神经反应在言语发作前就开始了，其幅度不受延迟的影响(图3E)。检查之前确定的2个电极簇的神经反应，在DAF期间阅读句子时，两组的神经反应振幅随延迟而增加(图3F和3G)，两组的神经反应持续时间均显著增加，且延迟与DAF对发音持续时间的显著行为影响平行。

聚类分析确定的两种反应在解剖学上的不同，分别反映了对自我生成语言的听觉反应和对发音的运动反应。听觉部分在单词阅读和句子阅读中都表现出独特的增强反应，DAF代表听觉错误信号。此响应增强随反馈延迟而变化，表明听觉错误信号并不简单地编码预期和感知语音之间的不匹配，而是对不匹配的数量敏感。比较单词阅读和句子阅读任务的敏感性指标，dPreCD和IFG等几个位点在句子阅读任务中表现出更高的DAF敏感性(图4A和4B)。敏感度指数在所有电极上的分布表明，与单词阅读任务相比，更多电极对句子阅读任务的DAF敏感度更高。这一结果表明，在DAF期间发出更长、更复杂的言语刺激不仅会引发更强的行为反应，还会导致听觉和运动区域更强的神经反应增强，并参与到更大的大脑网络中，且招募额外的额叶区域。

基于参与者内部解剖结构进一步检查了6个不同感兴趣区域对DAF的神经反应:dPreCG背侧中央前回；IFG额下回；postCG中央后回；SMG边缘上回；STG颞上回；vPreCG腹侧中央前回(图5A-5F)。

比较这些区域对单词阅读任务和句子阅读任务的敏感度指数，发现6个区域在句子阅读任务中对DAF的敏感度都较大。为揭示在句子阅读任务中对DAF的反应增强如何随时间变化，研究者在每个时间点进行了单因素方差分析，使用FDR方法修正了多重比较，并标记了对4种延迟条件的神经反应至少连续200毫秒显著不同的时间点。句子阅读中显著差异最早出现在言语开始后80毫秒的STG区，其次是dPreCG区360毫秒和SMG回区680毫秒，并持续整个刺激过程。在postCG,, vPreCG和IFG中，反应的差异分别在1.80,1.88和2.30秒后出现(图5H)。在postCG,，在110 - 440毫秒的短暂时间内，神经反应有显著差异但并没有反映出神经反应随着延迟的增加而增强。以上这些差异的发生揭示了皮层区域参与听觉错误处理的时间，并提供了早期(STG、dPreCG和SMG)和晚期(postCG、vPreCG和IFG)募集的两个不同时间框架的证据。

不同区域的语音网络对DAF的神经反应增强程度各不相同。反应幅度的增加通常伴随着反应持续时间的延长，这是由于发音持续时间较长的结果。无延迟和200毫秒延迟在振幅和持续时间方面显示出最大的神经反应差异。仅对于STG, DTW后200毫秒延迟条件下的神经反应持续时间稍大。对于其余区域，神经反应持续时间无显著差异。在对反应进行时间比对后，为了揭示对DAF的反应增强如何随时间变化，研究者在每个时间点进行配对t检验，并进行FDR校正，并标记出对无延迟和200毫秒条件的神经反应至少连续200毫秒显著不同的时间点。STG在言语开始后260毫秒出现显著的神经反应分化，dPreCG在400毫秒次之，SMG在490毫秒。在postCG和IFG中，分别在1.70秒和2.20秒。在vPreCG中，两种延迟条件下的神经反应没有明显差异(图6A-6F)。以上结果进一步证明错误信号集中在3个主要皮层网络:STG、SMG和dPreCG。

在DAF范式中，发音持续时间取决于反馈延迟（即随着延迟的增加，发音持续时间变长，发音持续时间越长，神经反应越长），分离这两个因素对神经反应的影响是困难的。为解决此问题，这里控制发音持续时间或反馈延迟的数量，然后再测试神经反应的差异。为了控制发音持续时间，对同一刺激试验的所有无延迟和200毫秒DAF试验进行了识别，这些试验在发音持续时间上差异小于10毫秒。通过在每个时间点进行配对t检验来比较无延迟和200毫秒DAF试验的神经反应，并使用FDR对多重比较进行校正(q = 0.05)，并标记至少连续200毫秒显示显着差异的时间间隔。在200毫秒DAF条件下，即使发音持续时间与无延迟条件几乎相同，STG、SMG、dPreCG和IFG的神经反应也有所增强。在vPreCG和PostCG中，在控制了发音持续时间后，200毫秒DAF条件下没有反应增强(图7A-7F)。

为了控制反馈延迟的数量，根据发音持续时间将200毫秒DAF试验分为4组:0至25百分位、25至50百分位、50至75百分位和75至100百分位。通过在每个时间点进行单因素方差分析来比较神经反应，使用FDR检验对多重比较进行校正(q- 0.05)，并标记至少连续200毫秒显示显着差异的时间间隔没有发现任何区域的神经反应幅度因更长的发音持续时间而增强(图8A-8F)。这一结果表明，虽然神经反应振幅随延迟条件而增强，但在最初的几秒钟内，所有的百分位条件实际上都包含语音刺激(即参与者仍在说话)，较长的发音没有这种振幅增加。这些结果消除了神经反应增强仅仅是DAF期间长时间发音引起的运动现象的可能性，并证明它是由于STG、SMG和dPreCG中的听觉错误处理造成的。

讨论： ¶

在语音产生过程中，由于噪声和神经处理(轴突传递、突触过程等)的延迟，再传入听觉反馈不是立即有用的。因此，根据言语运动控制的预测模型，大脑必须依赖于听觉反馈的内部估计，并仅使用传入反馈来纠正这种内部估计。当一个话语产生时，运动命令的一个感知副本被用来预测当前的发音状态和随后的感觉结果。只要预测和传入反馈之间不存在不匹配，大脑就可以依靠其内部估计。但当存在不匹配时，大脑会产生一个错误信号来纠正其内部估计和必要的运动命令，以产生预期的话语。在此范例中，人为引入的延迟会在预测和传入反馈之间产生持续的不匹配，传入反馈匹配的是先前的发音状态，而不是当前的发音状态。在这种情况下，发出新的运动指令必须延迟，这可以解释语言产生的减慢。用DAF生成单个单词会引起轻微的减缓效应，并且只会增加听觉区域的神经反应，而不会增加运动区域的反应。当参与者说出带有DAF的句子时，这种更长、更复杂的刺激引发了明显的减速效应，并增加了听觉和运动区域的神经反应。

dPreCG在听觉反馈加工过程中的反应增强从未被报道过。使用音调干扰改变听觉反馈的研究表明，中央前回的腹侧部分的反应增强与代偿性声音调节相关。在此实验中，vPreCG对DAF产生的单词和句子都没有表现出任何反应增强。有可能是需要音调调整的声音控制激活了vPreCG，而需要长期维持其他韵律特征(如速度、节奏和停顿)的声音控制激活了dPreCG。本研究结果虽然排除了dPreCG在句子阅读过程中反应增强的可能性，但没有对照任务来测试刺激长度或复杂性是否驱动这种调节。众所周知，dPreCG参与运动规划和执行。先前的研究报道，当参与者产生复杂的音节序列时，该区域的激活会增加，这表明该区域在规划和产生具有适当音节时间的长话语中起作用。因为dPreCG仅在参与者产生DAF句子时才会激活，据此预测它在长话语的发音过程中对保持韵律和语言流畅性起着关键作用。结果表明，在单词阅读和句子阅读任务中，反馈延迟200毫秒时言语中断最大。在之前的DAF研究中，言语范式使用了从25毫秒到800毫秒不等的延迟量，并一致报道在200毫秒的延迟时言语中断最强烈。这一时间间隔对语音产生过程中的感觉运动整合至关重要，因为它与平均音节持续时间的顺序大致相同。考虑到两个连续重读音节之间的时间距离大约为200毫秒，有研究表明，延迟这段时间的听觉反馈会导致节奏干扰，从而最大程度地破坏语言流畅性。

总结： ¶

长久以来，操纵听觉反馈的行为范式被广泛用于理解言语运动控制，但此过程背后的皮质动力学在很大程度上仍然未知。本研究阐明了编码产生的语音与其感知反馈之间不匹配的神经反应的幅度、时间和空间分布。结果强调STG、SMG和dPreCG在检测和纠正发声错误方面的关键作用dPreCG是一个选择性区域，当听觉反馈变得不可靠，语音生产变得更费力时，它会立即被招募，也就是说它参与了听觉-运动映射，这是人类语音监控的基础。