文献：Brodbeck, C., & Simon, J. Z. (2020). Continuous speech processing. Current Opinion in Physiology, 18, 25-31. https://doi.org/10.1016/j.cophys.2020.07.014

论文原文 ¶

1. 引言 ¶

语音本质上是一种动态的、不可重复的声音刺激，对于人类听众来说，重复呈现改变了对讲话的感知和体验。因此，用传统的、以试验为基础的实验设计来研究人类语音感知的神经基础的程度是有限的。脑电图(EEG)、脑磁图(MEG)和皮层下电图(ECoG)相关技术的进步为研究大脑对长时间、非重复性刺激(如有声读物)的反应提供了可能性，并有可能应用于更自然的刺激材料。连续语音会沿着听觉路径驱动强大的神经反应，这为在不同层次上研究具有相同语音刺激的多层语音加工机制提供了可能性。

2. 皮层语音追踪 ¶

对连续语音的低频(< 10 Hz)皮层反应显示出与声学语音包络一致的相位关系，并且对于较高频率(γ)也是慢包络反应，这种现象称为神经的语音追踪。下图是两种分析语音追踪的模型，一种是从神经反应中重建刺激包络（图1a，后推模型），并且通过重构的包络与实际包络的匹配程度来量化语音跟踪。另一个时间反应函数（TRFs）模型通过语音包络预测神经反应（图1b，前推模型），并通过预测反应与实际反应的匹配程度来量化语音跟踪。本质上，这两种方法都量化了大脑反应线性依赖于语音包络的程度。包络追踪的定义是与声音信号密切相关的大脑反应，因此，语音追踪通常在本地语言和非本地语言之间没有显著差异。因为语音的包络是语音可懂度的重要线索，所以语音追踪被用作评估是否满足语音可懂度的先决条件。例如，对于耳蜗植入用户来说，可以评估调制后的语音信号传送到皮层的情况。语音追踪可能与成功理解的语音加工有因果关系，因为以语音包络为目标的经颅交流刺激(tACS)会对语音理解产生负面影响。

然而，语音理解和包络追踪之间显然没有一一对应的关系，例如，即使老年人经常觉得言语理解困难，但皮层包络追踪实际上随着年龄的增长而增加。早期的观察是语音追踪强度可能更多地对应于感知的语音，而不是简单地反映自下而上的声音输入。当面对两个讲话者时，能更好的追踪被注意的讲话者的语音，并且这种调节的作用非常强。因此这里包络追踪实际上测试了注意语音的表现，它不同于实际的声输入。同样，在注意力高度集中的时期，对于清晰语音的追踪也会增加。有证据表明对清晰语音追踪中的逐个试验的变化反映了任务表现，即对于在具有更强语音追踪的句子中出现的单词有更好的记忆。

以上的结果增加了语音包络反应了一种清晰地和注意到的语音输入的表现，这可能形成理解的基础。与强烈的自上而下的影响相一致，对噪声中注意语音的追踪可以比对清晰的语音更强。除了注意力的影响之外，对噪音中的语音的追踪一定程度上取决于被试是否知道呈现刺激的语言，这表明除了声学加工之外，语音追踪还包括特定于语言的成分。

因此，包络追踪很可能反映了听觉皮层自下而上的输入与依赖资源（注意力，是否掌握改语言）的高阶过程的相互作用。这可以由改变用于演讲的认知资源来证明：在高信噪比(SNR)下，无论被试是否注意到讲话，或者他们是否忽略它而观看无声电影，语音追踪都是相似的；然而，在较低的SNR下，也就是当诶是需要更多的注意力资源来恢复语音信号时，语音追踪在电影条件下下降得更多；当被试在玩视频游戏时，语音追踪更低，即使是清晰的语音也在下降。这表明对清晰语音的神经追踪也显示出明显的资源依赖成分，在噪音中这种依赖就会增加。

3. 语音追踪的成分 ¶

虽然语音包络是根据语音的声学属性来定义的，但是从以上的研究结果看，将语音追踪视为基础的声学加工过于简化。更好地理解语音加工需要理清语音不同属性的表征。可以通过使用TRFs分析刺激和反应之间的时间关系来实现分离。例如，当两个人同时说话时早期的反应（~50ms）反映了周围听到的刺激，而之后（~100ms）的反应则由被关注者的说话的声学刺激所支配，这些反应一定程度上受任务调控。并且语音包络不仅是相关声学语音特征的集合，而且还被进一步调制为从音位到短语的不同时间尺度的语言单位的载体（图2）。语音追踪代表了哪一种表征，在不同的刺激和任务中可能会有所不同。

3.1 听觉加工 ¶

很多人通过假设驱动模型进一步理清驱动神经反应的特定声学和语言特征，虽然包络是一个总称，但是当考虑其他声学特征时皮质反应更能准确预测，例如，对应于为不同频段分别计算的声学信号的包络的频谱图，比单独的包络更好地预测大脑反应。语音追踪的常见变化是使用包络或频谱图的变换来强调声学开始。单独使用时，声学开始声谱图确实是比基于包络的声谱图更好的预测，但是包络和开始声谱图都解释了另一个无法解释的大脑反应中的独特可变性。并且，解剖学上的局部区域表示的不是局部声学元素的开始，而是更大的声学分组的开始，例如句子和短语。最后，进一步的复杂性可能来自对简单声学特征的非线性反应，例如绝对音强对包络反应的调节。

语音理解需要将声学表征转换成特定于语音的维度。例如，大脑反应也受非常重要的韵律成分的音高的调节，因为说话者的基本音调不同，同一个音调对于不同的说话者可能有不同的语言含义。因此，音高需要相对于说话者进行标准化，以便进行语言学解释。ECoG研究表明，在元音和韵律轮廓的表征中，这种反应特征的变化依赖于说话者。

3.2 语言加工 ¶

最终，声学表征被转换成建立在特定语音信号上的抽象语言表征，研究这种表征的一种方法是从实验者编码的语言特征的时间序列中预测大脑的反应。这种方法的挑战是，在统计上，语言特征与用于传达它们的声学特征高度相关。例如，每个音素被等价的定义为相关声学模式，与这种密切关系相一致的是大脑对音位分类表征的反应也可以解释为对声音开始的反应。迄今为止，对语言语音表征的研究很少包括控制声学表征的详细声学模型；因此，应谨慎解释早期旨在证明对语言特征的敏感性的结果。可以通过使用固定节奏的语音将语言特征与声学特征分离，尽管仍然会留下关于负责某个反应的特定语言特征的模糊性。

另一种将大脑活动与语言表征联系起来的方法是通过预测编码框架，语言处理的脑电图研究长期以来一直使用N400，作为一个单词在其语言环境中有多不常见的指标。基于对每个单词在其上下文中的意外程度的逐字测量，在连续的讲话中也发现了类似的反应。联合建模对声学和语义属性的反应的优点是，它使得评估两者之间的相互作用成为可能。此外，虽然N400文献可能暗示只有一种类型的意外，但对与语言不同方面相关的意外的估计可能会影响不同的大脑区域，这表明可分离的潜在机制。这开启了通过比较从不同语言模型计算的意外的预测性来区分不同神经加工的可能性。

3.3 音位加工 ¶

预测编码框架也适用于音位层面：音位可以描述为声学模式，但它们也是信息载体。语音感知可以被视为信息传输，其中信息携带单元是音位，目标是识别单词。因此，音位信息量的测量提供了语音词汇处理的指数，并且这种测量可以预测大脑对连续语音的反应，即使在控制复杂的声学处理模型时也是如此。此外，这些测量显示了对两个同时说话者反应的分离:虽然来自两个说话者的声学特征在某种程度上被皮层语音追踪，但时间锁定词汇处理仅与被关注的说话者密切相关。

3.4 皮层语音追踪作为“诱导” ¶

语音追踪的另一个可能的调制来自大脑自身的内部节律。因为语音是有节奏的，语音追踪反映了大脑与某些外部节奏的匹配，这些节律反应可能不仅仅是对节律特征的时间锁定神经反应，它们可以反映以匹配和预测语音节律相位移的内源性节律。锁相反应和诱导通常很难分离，因为两者的主要预测是语音和大脑节奏之间的同步。与锁相响应不同，诱导的清晰特征可能需要显示神经节律与语音节律的分离。这可能以神经振荡的形式出现，这种振荡比刺激更持久。

4. 皮层下语音追踪 ¶

皮层下信号比皮层信号更弱，并且传统上通过对相同刺激的数千次重复进行平均来评估。最近的研究发现，反向关联也可以在没有任何重复的情况下，从非重复性刺激(如有声读物)中恢复脑干反应。除了使脑干反应的测量对参与者来说更具有诱导性之外，用自然刺激测量皮层下反应的能力也创造了在更生态的任务中研究脑干反应的新机会。例如，一些研究表明，有选择地关注两个说话者中的一个，会改变说话者的脑干表征，尽管这个结果还没有被其他实验室重复，鉴于与肾上腺皮质激素的联系，这种效应似乎是合理的。

5. 总结 ¶

由于声学语音信号以复杂的方式与它所传达的语言信息相关，因此语音加工的研究变得复杂。TRF方法的一个优点是，它可以对声学和语言特征的响应进行联合建模，从而具有将语音追踪分解成与语音处理的不同方面相关的神经机制的潜力。