论文信息 ¶

Ni G, Xu Z, Bai Y, et al. EEG-based assessment of temporal fine structure and envelope effect in mandarin syllable and tone perception[J]. Cerebral Cortex, 2023, 33(23): 11287-11299.

[论文原文] ¶

关键词 ¶

听觉处理;语音包络;颞部精细结构;任务状态微状态;脑电图

摘要 ¶

在语音感知中，关于语音包络（Envelope）和时间精细结构（Temporal Fine Structure, TFS）各自的作用仍存在争议，尤其是在普通话中。本研究旨在探讨普通话音节与声调感知对语音包络与时间精细结构的依赖程度。

我们采用声音嵌合（chimerism）分析方法，在三种声学条件下记录了受试者的脑电图（EEG）：（i）原始语音，（ii）保留语音包络并用正弦调制代替TFS的语音，（iii）保留TFS并用非语音（白噪声）包络调制的声音。研究发现，音节感知主要依赖于语音包络，而声调感知则依赖于时间精细结构。

在无论是音节还是声调的感知过程中，δ（delta）频段的脑电活动较为显著，顶叶和前额叶是主要激活的脑区。最后，我们通过脑电微状态序列解码了普通话感知的时空特征，发现语音材料引发的脑电时空特征序列具有特异性。

3. 结果 ¶

3.1行为评估 ¶

首先研究了在不同语音嵌合体刺激下对普通话声调的感知能力：对参与实验的 21 名受试者的声调感知行为数据进行了统计分析：

原始语音的行为结果：最容易被识别的声调是第四声（T4），准确率为 95.67%；第三声（T3）的准确率最低，仅为 76.84%，其中大多数误判为第四声，占误判的 51.51%。

语音包络条件下受试者的行为结果：第一声（T1）的准确率最高，达到 86.68%；而第二声（T2）的准确率最低，仅为 18.01%，其中大部分 T2 被误判为 T1（占误判的 83.45%）。从混淆矩阵的结果可以看出，四个声调中大多数的误判都是为 T1。该行为结果表明，包络信号并非声调信息的主要载体。

TFS 条件下受试者的行为结果：每个声调的识别准确率均超过 84%，说明声调信息在该条件下能够较好地被感知。然而，从误判的声调准确率来看，T2 和 T3 容易被混淆，这可能是由于 T2 和 T3 的频谱较为相似，加之声音本身的物理属性导致了易混淆的结果。

3.2音节和声调的皮质跟踪 ¶

在研究 EEG 脑电记录中音节和声调感知的第一步中，我们量化了不同 EEG 成分对原始语音刺激下音节和声调感知的响应。在对音节的听觉诱发电位（AEP）响应中，最显著的 EEG 成分是 N1-P2 复合波，不同音节所引起的 EEG 反应也存在差异。

图五（a）：N1 的潜伏期为 170–220 毫秒，其电位幅值在 −1.5 到 −3μv 之间；而 P2 的潜伏期为 250–330 毫秒，幅值范围为 0.5 到 4μv。

图五（b）：对声调的听觉诱发电位（AEP）反应进行了预处理和平均处理，并检查了其脑反应的时间波形，音节类似，N1-P2 复合波也是不同声调在时域中的主要特征。

对 C4 电极的 N1-P2 潜伏期和振幅进行了统计分析，结果发现 P2 的潜伏期存在统计学差异，而 N1 的潜伏期和振幅以及 P2 的振幅均无显著差异。

在时域分析中，探讨了由 12 个语音刺激引起的脑反应是否能够呈现出 EEG 的时间特征。

图六：对 C4 电极在 12 个刺激条件下的 P2 振幅和潜伏期进行了单因素方差分析（one-way ANOVA）和配对 t 检验：P2 的振幅没有统计学差异；而对潜伏期进行单因素方差分析的结果为 P < 0.0001，存在统计学显著差异。

3.3音节和声调的功率谱密度（PSD）分析 ¶

在三种听觉条件下（原始语音、包络〔ENV〕、时间精细结构〔TFS〕）分析了音节和声调感知的功率谱密度（PSD），使用 PSD 算法对 0.1–35 Hz 范围内的 EEG 信号进行了分析，探讨了与音节和声调感知相关的脑电节律，并绘制了脑电地形图

图7（a）显示了原始语音条件下的音节感知主要涉及 delta（1–4 Hz）和 theta（4–8 Hz）频段的脑电节律，相关的脑区主要集中在前额叶、顶叶和颞叶。我们对这三个区域的电极进行统计分析，发现 C3 和 C4 可作为区分音节的重要特征。

图7（b）显示了对 ENV 条件下 EEG 信号的 PSD 分析结果：ENV 条件下的音节识别主要集中在 delta 节律，其主要脑区为颞叶和顶叶

图7（c）显示了 TFS 条件下的音节识别 PSD 分析结果，发现无显著统计差异，即音节信息无法通过 TFS 被识别。

音节信息的主要载体是语音的包络（ENV），而非时间精细结构（TFS）

声调识别中最具挑战性的部分是对 T2 和 T3 的识别：

声调识别主要依赖于 delta（1–4 Hz）、theta（4–8 Hz）和 alpha（8–12 Hz）频段的脑电节律。涉及的脑区主要为前额叶和颞叶。

图8 a：T2与T3在delta，theta和alpha三个频段均表现出了空间分布差异；响应主要集中在前额叶和颞叶区域；在 FC3 上，原始语音中 T2 和 T3 的 delta、theta 和 alpha 脑电节律均具有显著统计差异

图8 b（ENV）:T2与T3的脑响应图几乎一致，没有清晰的频段特异性变化；FC3，C3，C4电极在delta频段的反应无统计显著差异。

图8c（TFS）：T3在delta频段表现出更强响应，特别是左额叶与右中央区域，在theta和alpha频段的变化较小.

声调信息的主要载体是语音的时间精细结构（TFS），而不是语音的包络（ENV）

3.4音节与声调的时空分析——微状态结果 ¶

采用最佳聚类的微状态模板对来自21名被试在三种声学条件下的音节和声调感知实验的脑电数据进行了分段处理，

图9a：在音节感知实验数据中找到了七个最佳的等效脑拓扑图，根据AEP（听觉诱发电位）结果可以得出，音节任务状态的主要时间集中在100到400毫秒之间，因此我们将重点分析该时间段内的微状态，即微状态2–4，主要涉及顶叶和前额叶区域。

图9c对于微状态的主要特征参数——全局解释方差（GEV）、持续时间和覆盖率，我们进行了配对 t 检验的统计分析：原始语音与ENV之间在微状态2–4中没有统计学差异，但原始语音与TFS、ENV与TFS在微状态3和4的主要特征参数上存在统计学差异。TFS条件下的微状态3和4在GEV、持续时间和覆盖率方面显著低于原始语音和ENV。

图10a：对声调感知的脑电数据应用了相同的分析方法，共识别出9个最佳的等效脑拓扑图，同样关注100–400毫秒之间三个条件下的微状态变化，主要分析了微状态3–6及其三个主要特征参数，并进行了配对t检验的统计分析。

图10c：在声调感知中，原始语音和TFS在微状态5的GEV，以及微状态6的持续时间和覆盖率上存在统计学显著差异，其余九个特征参数均无统计学差异。

4.讨论 ¶

普通话的感知涉及音调信息与音节信息的处理，本研究通过听觉嵌合体的方法，探讨了母语普通话中音调与音节在早期听觉加工阶段的影响。研究结果表明，大脑对普通话音节和音调的反应存在差异。在ERP（事件相关电位）文献中，波峰潜伏期通常被视为神经加工过程中的时间指标。本研究发现音节与音调对听觉诱发电位（AEP）中P2成分的潜伏期有显著影响，不同语音材料的神经加工过程是有差别的，P2波的潜伏期可能是一个反映普通话感知的生物标志。音调信息和音节信息在注意（attentional）与前注意（pre-attentional）阶段可以并行处理。本研究进一步发现，音节信息的处理可能稍早于音调信息。

音调信息主要由语音的时间精细结构承载，而语音包络主要用于感知音节信息。大脑皮层在theta 频段对语音的追踪是语音可懂度的重要预测指标，而在delta 频段的皮层语音追踪则与语义理解最为相关，母语为普通话的受试者在语音感知中激活的脑区主要为颞叶和前额叶。音调感知主要依赖delta 频段，对应的主要激活脑区是颞叶，统计分析结果还表明，在早期听觉加工阶段，音调倾向于在右脑半球加工，而音节倾向于在左脑半球加工。

受试者仅凭语音包络（ENV）识别音调的准确率可达 60%。而行为实验结果还显示，当仅使用 TFS（时间精细结构）信息时，音调识别的准确率超过 90%。这些结果表明，在音调感知中，TFS 而非 ENV 起主导作用。音调的神经加工时间大约发生在语音刺激后 200 毫秒左右，即对应 P2 成分的峰潜伏期。从三种声学条件下的 PSD 和微状态分析中可以看出，语音感知主要依赖于 TFS，而大脑的响应时间主要集中在 200 到 400 毫秒之间。

上颞回是一个听觉联合区域，其活动依赖于语音的频谱-时间表示，大脑皮层对语音包络的追踪（envelope tracking）对语音可懂度具有一定敏感性，也就是说与音节的可辨识度相关。音节感知主要依赖于 delta 节律（与语音包络密切相关），同时涉及前额叶和顶叶的神经活动。

音节感知主要依赖于语音的包络（ENV），而声调感知主要依赖于语音的时间精细结构（TFS），为后续基于普通话刺激的听觉脑机接口（auditory BCI）研究，或人工耳蜗编码策略的优化提供了参考依据和脑电支持。