论文信息 ¶

Ni G, Xu Z, Bai Y, et al. EEG-based assessment of temporal fine structure and envelope effect in mandarin syllable and tone perception[J]. Cerebral Cortex, 2023, 33(23): 11287-11299.

[论文原文] ¶

关键词 ¶

听觉处理;语音包络;颞部精细结构;任务状态微状态;脑电图

摘要 ¶

在语音感知中，关于语音包络（Envelope）和时间精细结构（Temporal Fine Structure, TFS）各自的作用仍存在争议，尤其是在普通话中。本研究旨在探讨普通话音节与声调感知对语音包络与时间精细结构的依赖程度。

我们采用声音嵌合（chimerism）分析方法，在三种声学条件下记录了受试者的脑电图（EEG）：（i）原始语音，（ii）保留语音包络并用正弦调制代替TFS的语音，（iii）保留TFS并用非语音（白噪声）包络调制的声音。研究发现，音节感知主要依赖于语音包络，而声调感知则依赖于时间精细结构。

在无论是音节还是声调的感知过程中，δ（delta）频段的脑电活动较为显著，顶叶和前额叶是主要激活的脑区。最后，我们通过脑电微状态序列解码了普通话感知的时空特征，发现语音材料引发的脑电时空特征序列具有特异性。

1. 简介 ¶

普通话是使用最广泛的声调语言之一，其声调调制承载着词义的区别，探究这四种声调的主要声学承载成分是语音包络（ENV）还是时间精细结构（TFS），有望为新型助听器的编码策略提供理论基础。

听觉嵌合体（auditory chimera）：每个听觉嵌合体都包含一个音频的语音包络（ENV）与另一个音频的时间精细结构（TFS）。语音信号的时间信息可以基于希尔伯特变换（Hilbert transform）分为语音包络（ENV）和时间精细结构（TFS）。ENV 被定义为语音信号的振幅轮廓，而 TFS 被定义为与信号中谐波分辨率相关的瞬时相位信息。听觉系统中，ENV 线索反映了听神经元短时放电率的波动，而 TFS 反映了神经脉冲与载体特定相位的同步性。

功能性磁共振成像（fMRI）和正电子发射计算机断层扫描（PET）研究以声调为刺激，发现使用声调语言的受试者在左半球的激活更明显。语音的听觉加工过程可能发生在刺激开始后短短400毫秒内，早期的 fMRI 和 PET 研究未能揭示声音刺激后400毫秒以内的大脑变化。随后引入了脑电图（EEG）来研究声音刺激后早期的大脑反应变化。Luo 等（2006）基于失匹配负波（MMN）发现，在注意前阶段的早期听觉加工过程中，对声调的处理偏向右脑半球。传统观点认为，语音感知主要依赖 ENV，而 TFS 则在复杂环境中提升语音感知能力。

对于辅音的研究表明，听觉加工偏向左脑半球，这说明声调和辅音依赖不同的声学特征，语音理解需要实时从声音信号中提取声学特征，并将其转化为语言表征。皮层在 delta 波段和 theta 波段的活动会跟随语音节奏，先前使用英语材料的研究表明，theta 波段的语音皮层跟踪编码的是语音可懂度，其次是信号的声学属性；而delta 波段的跟踪则编码更高级的语音感知过程。普通话的识别是一个渐进的过程，声调信息依然属于语音信息；不过只有在词语出现之后，声调信息变得可用时，才会被识别。

汉语普通话的大脑反应研究主要集中在事件相关电位（ERP）和脑电节律（EEG rhythm）上，较少从时间和空间的角度探讨音节和声调的大脑反应。

在本研究中，采用听觉嵌合体（auditory chimera）技术提取了语音的 ENV 和 TFS，设计了普通话音节-声调感知的脑电实验范式，旨在探索语音感知过程中的大脑反应的时间-频率-空间特征。

2. 材料和方法 ¶

2.1参与者 ¶

21名以普通话为母语的受试者参与了本次实验（平均年龄为23.5岁 ± 4岁，其中女性9人）.

2.2刺激 ¶

原始语言测试材料由三个普通话单音节词组成，其拼音分别为“ba”、“yao”和“yuan”，每个音节对应四种声调：T1（一声）、T2（二声）、T3（三声）和T4（四声）。

本实验使用了听觉嵌合体（auditory chimeras，参考 Smith 等，2002）的方法，将语音刺激的包络（ENV）与细节结构（TFS）解耦。

2.3听觉感知研究的实验设计 ¶

原始语音和处理后的语音（ENV 和 TFS）以约 65 dBA 的固定音量呈现。计算机显示器中央会出现一个视觉注视十字，持续 1000 毫秒。该时间段的 EEG 数据被用作静息态基线。每位受试者需聆听 12 个语音词汇，每个词汇重复 15 次，总计 180 个语音刺激。这 180 个刺激以伪随机方式播放，在每段语音播放后 1000 毫秒，显示器上会出现问题：“请选择你刚才听到的语音的声调”，受试者需按下与答案对应的数字键，系统将记录其按键反应。

2.4脑电图记录和预处理 ¶

2.4.1脑电图采集 ¶

数字采样率为 1000 Hz，在线滤波设置为 0.1–150 Hz 的带通滤波器，并加装 50 Hz 的陷波滤波器

2.4.2数据预处理 ¶

对于AEP（听觉诱发电位）和 PSD（功率谱密度）：对数据进行带通滤波（0.1–30 Hz）并加上 50 Hz 陷波滤波器，对各通道进行半自动检查，并对异常通道进行插值修复；将数据重新参考为所有 EEG 通道信号的平均值；进行独立成分分析（ICA），以去除眨眼、眼动以及肌电（EMG）伪迹信号；将数据分段为 1.2 秒的时间窗（刺激标签前 200 毫秒至之后 1000 毫秒），并将数据下采样至 200 Hz。

脑状态分析：将电极放置在乳突区和小脑区域，并对保留的 60 个电极通道的数据进行带通滤波（0.2–40 Hz）；半自动检查各通道，并对存在问题的通道进行插值修复；执行独立成分分析（ICA），以去除眨眼、眼动和肌电（EMG）等伪迹；将数据分段为 800 毫秒的时间窗，并手动剔除质量不佳的时间段（epoch）；将数据重新参考为公共平均参考（common average），并再次进行带通滤波（1–20 Hz）。

2.5脑微状态分析 ¶

微状态分析包括根据一组固定的大脑地形图检查脑部头皮电信号数据，并根据这些地形图的主导时间段对数据进行量化。微状态分析是一种从时间—空间角度对数据进行分解的方法。它将多通道脑电时间序列分解为一组相对较少的空间地形图，或是一组随时间变化的线性组合成分。该方法通过消除各组在时间上的重叠来实现彼此独立，从而在任意时刻只存在一个大脑地形图。

微状态分析通常包括两个步骤：

聚类步骤：将要分析的头皮场数据提交给空间聚类算法，识别出构成成分/微状态的地形图；

分配步骤：将每个时间点及其对应的实验条件分配到最合适的聚类中，从而生成微状态模型的时间进程。

微状态分析可用于研究某些大脑过程的时间是否因实验因素的不同水平而存在差异，也就是说，这些过程的持续时间、起始时间或有效潜伏期是否受到实验操作系统的影响。重点关注以下：

N1：一种在选择性注意听觉信号时记录到的增强型负波。N1 与听觉刺激的物理参数相关，其振幅和潜伏期直接反映了人脑对感官输入信息的感知和处理过程，主要激活区域位于颞叶与顶叶皮层侧的共同皮层。

P300：

与注意、识别、决策和记忆等认知功能相关的事件相关电位（ERP）成分，潜伏期被认为反映了大脑皮层听觉系统对声音加工的时间，在前额叶和顶叶区域表现出差异。

N1-P2复合波：N1-P2复合波的源位于标准头部模型颞叶的上部，潜伏期约为100–200毫秒，不同声学相关性的宽带或窄带声音能够引发稳定且明显的N1-P2成分。

2.6统计分析 ¶

P 值均基于非参数置换法计算，采用配对 t 检验对不同组间的声调进行比较。对于听觉诱发电位中音节和声调的潜伏期与振幅，使用方差分析和配对 t 检验进行统计分析；而对不同刺激的潜伏期和振幅，则使用单因素方差分析；PSD（功率谱密度）分析中，比较不同电极间 EEG 节律的统计方法也为配对 t 检验。

3.结果 ¶

3.1行为评估 ¶

首先研究了在不同语音嵌合体刺激下对普通话声调的感知能力：对参与实验的 21 名受试者的声调感知行为数据进行了统计分析：

原始语音的行为结果：最容易被识别的声调是第四声（T4），准确率为 95.67%；第三声（T3）的准确率最低，仅为 76.84%，其中大多数误判为第四声，占误判的 51.51%。

语音包络条件下受试者的行为结果：第一声（T1）的准确率最高，达到 86.68%；而第二声（T2）的准确率最低，仅为 18.01%，其中大部分 T2 被误判为 T1（占误判的 83.45%）。从混淆矩阵的结果可以看出，四个声调中大多数的误判都是为 T1。该行为结果表明，包络信号并非声调信息的主要载体。

TFS 条件下受试者的行为结果：每个声调的识别准确率均超过 84%，说明声调信息在该条件下能够较好地被感知。然而，从误判的声调准确率来看，T2 和 T3 容易被混淆，这可能是由于 T2 和 T3 的频谱较为相似，加之声音本身的物理属性导致了易混淆的结果。