论文信息 ¶

Gao, Y., Zhang, J., & Wang, Q. (2020). Robust neural tracking of linguistic units relates to distractor suppression. The European journal of neuroscience, 51(2), 641–650. https://doi.org/10.1111/ejn.14552

关键词 ¶

神经追踪，语言单位，干扰抑制

摘要 ¶

本文使用脑电图同步记录了受试者对节律性语音流在音节速率和单词速率上的神经追踪响应。人类参与者在语音或噪声干扰条件下（不同信噪比）听取目标语音。研究发现：单词速率的神经追踪稳健性显著低于音节速率；仅在语音干扰条件下观察到目标单词的稳健神经追踪，而在噪声干扰条件下则未出现；更重要的是，这种稳健的单词追踪与对干扰信号的主动抑制呈正相关，且单词追踪能力和干扰抑制能力均与行为层面的理解准确度相关。综上，研究结果表明，高层级语言单位的稳健神经追踪不仅与目标追踪相关，更依赖于对干扰信号的抑制。

1. 简介 ¶

神经生理学研究已观察到基于客体的神经表征证据：听觉皮层可分别追踪目标与干扰信号（Ding & Simon, 2012）。此外，目标语音包络的神经追踪在语音干扰或噪声干扰条件下均表现出对信噪比的稳定稳健性，表明神经系统通过强度对比增益控制维持稳定的表征。

即使在无法理解的压缩语音中仍可观察到对语音包络的可靠神经追踪，甚至听力损失患者的追踪能力优于听力正常者。语音理解还依赖于语言信息的整合效能，例如将音节有效组合为词、句等多层级语言单位。尽管已有大量研究表明，目标语音的包络追踪在复杂听觉环境中具有稳健性。语言单位的整合并非自动完成，而是依赖于神经资源的分配。神经资源的分配不仅涉及目标语音的处理，更依赖于对干扰的主动抑制。

本研究旨在探究语言单位神经追踪的鲁棒性及其前提条件——干扰抑制。通过使用包含等时音节与双音节词的节律性语音流，我们分别记录了音节速率与单词速率上对音节及语言单位（即单词）的神经追踪。整体上，我们探究了以下问题：1）单词的神经追踪是否对信噪比具有鲁棒性；2）目标的神经追踪与干扰的抑制如何共同影响语言单位神经追踪的鲁棒性及语音理解。

2. 材料和方法 ¶

2.1参与者 ¶

本研究招募了16名以汉语为母语的中国大学生被试（年龄20–27岁，平均年龄23岁；男性4人）。

2.2材料和刺激 ¶

实验刺激材料为等时音节序列，且成分间无插入声学间隔（通过NeoSpeech合成器独立生成），目标语音为男性声音，每个音节时长250 ms（对应4 Hz节奏），语音干扰为女性声音，每个音节时长312.5 ms（对应3.2 Hz节奏）。噪声干扰为语音成形噪声，其包络由语音干扰的包络调制生成。目标语音包含4 Hz音节层与2 Hz双音节词层语言单位，而干扰信号在语音干扰条件下为3.2 Hz随机音节序列，在噪声干扰条件下为3.2 Hz包络调制的噪声。

在脑电图（EEG）实验中，我们设置了三种信噪比（SNR）（0 dB、-3 dB、-6 dB）。相较于0 dB条件，-3 dB条件下干扰强度约为目标的两倍，-6 dB条件下干扰强度约为目标的四倍。

2.3程序 ¶

所有参与者在脑电图（EEG）实验前需通读所有单词的内容及类别（有生命/无生命），采用完全交叉的被试内设计，包含两种干扰类型（语音干扰、噪声干扰）与三种信噪比。每个条件下，14名参与者完成36次试验，另2名参与者完成30次试验。每次试验中，目标语音流（包含20个双音节词，持续10秒）在5–7个随机音节后播放。目标与干扰信号同时开始，干扰在目标流结束后0.1秒终止，因此干扰全程覆盖目标流。

2.4 EEG记录和分析 ¶

脑电图（EEG）响应通过64通道Biosemi ActiveTwo系统记录，本研究仅关注4 Hz以下的低频响应，所有EEG信号均通过MATLAB中的重采样函数降采样至32 Hz。每个分析时段持续10秒（对应频率分辨率0.1 Hz）。对每个通道的平均响应进行离散傅里叶变换。为揭示不同干扰水平下神经响应的相关性，我们采用相关性分析与线性拟合方程。

在每个条件和每位被试内通过重采样分析，随机选择正确试次使其数量与错误试次匹配。基于500次重采样生成正确试次的平均频谱，并计算各速率下正确与错误试次的响应差异，用于相关性分析。

3.结果 ¶

采用口语词汇处理范式探究目标与干扰的神经追踪及其对言语理解的贡献，在脑电图（EEG）记录过程中，参与者需在目标/干扰混合语音流中聚焦目标语音，并在每个试次后判断目标流中的所有单词是否属于同一类别。

3.1 目标词率、目标音节率和干扰音节率的神经反应 ¶

首先检验了实验刺激是否能诱发频率标记的神经响应。在几乎所有实验条件下，目标词速率（2 Hz）、目标音节速率（4 Hz）及干扰音节速率（3.2 Hz）处均观察到显著的神经响应。

3.2 对（目标）音节和单词进行神经跟踪的稳健和灵敏的方式 ¶

当信噪比（SNR）高于-6 dB时，大脑皮层对目标语音包络的神经追踪具有稳健性，即神经表征不受声学对比度变化的显著影响。研究进一步探究了音节与高层级词汇神经追踪的稳健性差异。

3.3 单词跟踪受干扰物抑制的调节 ¶

进一步探究了目标词汇速率（2 Hz）的神经追踪是否受到目标音节速率（4 Hz）或干扰音节速率（3.2 Hz）神经追踪的调节：针对每位被试，在6种听条件（2种干扰类型 × 3种SNR）下拟合线性方程，计算目标词汇速率响应与目标/干扰音节速率响应的相关性或反相关性。

结果：

①目标音节速率（4 Hz）响应与干扰速率（3.2 Hz）或目标词汇速率（2 Hz）的响应均无显著相关性；

②目标词汇速率（2 Hz）响应与干扰速率（3.2 Hz）响应呈显著负相关

③目标词汇与干扰速率的反相关性广泛分布于额叶与颞叶区域，提示多脑区协同参与抑制过程。

3.4神经反应和行为表现 ¶

进一步尝试将神经响应与行为表现（即语言理解准确率）相关联，针对每位被试，在6种听觉条件（2种干扰类型 × 3种SNR）下拟合线性方程，计算神经响应（目标词汇速率、干扰速率、目标音节速率）与行为表现的相关系数，通过10,000次重采样生成相关系数的置信区间，判断显著性（单尾检验）：

①目标词汇速率（2 Hz）与行为表现的正相关（词汇层神经追踪强度越高，语言理解准确率越高。）

②干扰速率（3.2 Hz）与行为表现的负相关（干扰信号神经响应越弱，理解准确率越高。）

③目标音节速率（4 Hz）与行为表现无显著相关（低层声学处理（音节追踪）的强度不影响语义理解表现。）

通过对比正确与错误试次的神经响应差异，进一步验证了神经响应与行为表现的关系：

①目标词速率（2 Hz）：正确试次的归一化响应功率显著高于错误试次，表明右半球在词汇整合中的关键作用；

②目标音节速率（4 Hz）与干扰速率（3.2 Hz）：左右半球均未发现显著差异

③配对t检验比较左右半球的试次响应差异，发现侧化效应未达显著性，提示右半球优势可能为群体趋势而非绝对侧化。

分析正确试次与错误试次间的神经响应差异，探究了目标词汇追踪（目标语音中的词速率响应）如何受干扰抑制（干扰音节速率的响应差异）的调控：目标词速率响应差异与干扰音节速率响应差异呈显著负相关，表明当干扰抑制增强时（干扰响应降低），词汇追踪效率提升；左侧前五通道以及其他神经响应间（如目标音节速率）未发现显著相关性。

4.讨论 ¶

本研究证实，从背景中分离音节的过程是自动化的神经处理——即目标语音中音节层的神经追踪不受干扰流神经追踪的影响，且在语音或噪声干扰下对信噪比（SNR）变化不敏感。目标包络的神经追踪与干扰包络的神经响应均对SNR变化不敏感，即使干扰强度增加，仍维持稳定表征，体现了基于听觉客体的增益控制，噪声干扰条件下，干扰速率的神经响应对其强度敏感，可能反映了大脑对整体听觉场景的动态编码。

在节律性语音流或自然语音流中，大脑皮层可追踪语言单位的节奏。这些语言单位的神经表征与声学线索分离，并基于句法与语义知识构建。现有研究表明，词汇追踪需要神经资源的主动分配：若语音未被主动注意或听者处于睡眠状态，神经振荡仍能编码音节节奏，但无法追踪词汇节奏。

本研究进一步提出：语言整合阶段的客体表征，也就是基于客体的表征不仅存在于信号追踪阶段（如包络编码），还延伸至语言整合阶段——即目标词汇的神经追踪对信噪比（SNR）变化不敏感；其次就是目标与干扰的资源竞争，即尽管词汇整合基于客体表征，但其与干扰处理（如干扰信号追踪）存在神经资源竞争。

在噪声干扰条件下，语言单位的神经响应对干扰抑制具有依赖性，且对信噪比（SNR）变化敏感：

①若目标语音与干扰语音可通过线索分离（如空间位置、说话者性别、语言差异），语言识别效率显著提升；

②噪声与目标语音在频谱上高度重叠（如白噪声覆盖全频段），难以利用频谱间隙（spectral gaps）分离目标。

词汇速率（word rate）的神经追踪需要词汇知识与注意力参与，通过对比正确与错误试次的差异，即使词汇知识可用，词汇速率神经追踪的强度仍与语音清晰度直接相关。因此，词汇速率神经追踪的波动可能反映了注意力的动态变化。