频率标记脑磁图反应揭示想象语音的神经表征

文献：Lu, L., Sheng, J., Liu, Z., & Gao, J. (2021). Neural representations of imagined speech revealed by frequency-tagged magnetoencephalography responses. NeuroImage, 229, 117724. https://doi.org/10.1016/j.neuroimage.2021.117724 论文原文

Introduntion ¶

心理意象是一种准知觉体验，可以在没有外部刺激的情况下在内部表示。言语心理意象的主观体验在人类中无处不在，如在某人的脑海中说话或唱歌。先前的功能性磁共振成像 (fMRI) 研究表明，语音心理意象涉及一些与颞区听觉感知相同的神经机制，并且募集传统听觉皮层以外的大脑区域，如与言语产生有关的额下回和与记忆存储和检索相关的颞顶叶连接。然而，fMRI 的时间分辨率是不能充分描述想象语言内部结构背后的快速神经动力学。近年来，应用更高时间分辨率的脑磁图(MEG)和脑电图(EEG)来研究想象语音的动态神经表征，言语意象与感知之间的密切关系进一步得到了研究的证明，研究表明，使用意象-感知重复范式，自上而下的言语心理意象生成与自下而上的刺激驱动感知之间存在早期互动。频率标记范式可以检测随时间周期性变化的神经信号，是研究内部构造结构节奏的有用工具，如音乐节奏感知和语音语言结构，并且最近已应用于图像研究(Lu et al., 2019)。具体而言，Lu 等人追踪了由心理意象任务引起的周期性神经反应，并发现了频率标记的 MEG 对无声计数的有节奏心理操作的反应。但是在现实生活中，言语心理意象的主观体验不仅仅是在脑海中数数。并且语音处理包括多个处理阶段，具有更高层次结构的想象语音，如想象的单词、短语和句子，是如何在内部统一和快速表征的，仍然不清楚。此外，鉴于语音想象与感知之间的密切关系，具有高阶结构的想象语音的内部构造是否与感知语音具有共同的神经机制尚不清楚。填补这一研究空白对于理解心理意象构建中涉及的自上而下的大脑功能至关重要，并将有助于开发在脑机接口应用中将内部语音转化为外部信号的语音神经假体设备。本研究旨在确定具有高阶结构的想象语音的神经表征及其与语音感知的关系。研究者选择了包含四句（行）五音节的中国传统诗歌（即绝句）作为实验材料。使用中国传统诗歌有两个原因：首先，说普通话的受试者熟悉中国传统诗歌，能够在没有任何外部线索的情况下根据自己的记忆快速生成中国诗歌的心理意象，从而在没有外部刺激的情况下对想象中的言语进行神经跟踪。其次，中国传统诗歌的节奏使其适合捕捉标记频率下对诗歌音节和句子的周期性神经反应。研究者认为，想象中的韵律结构的神经表征（即想象中的诗歌中的音节和句子）与语音感知中的节奏结构具有共同的机制。

材料和方法: ¶

被试： ¶

24 名年轻参与者（14 名女性；平均年龄：22.7，标准差：3.7）参加了该实验,右利手，无听力损失或精神障碍。

刺激： ¶

使用 Adobe Audition 软件生成持续时间为 50 毫秒、频率为 440 Hz 的纯音刺激。声音以 16 kHz 采样。准备了 80 个纯音序列作为参考声音，纯音之间的间隔设置为 250 毫秒。参考声音持续了 20 秒。语音刺激是三首中国传统诗歌（悯农，静夜思，春晓），每首诗20个音节，每5个音节组成一个句子（行）。在这里，一首诗中的节奏结构被定义为周期性地将音节组合成句子。使用 Neospeech 合成器的男说话人 Liang 合成了这首诗，将每个音节的持续时间调整为 250 ms。一首诗持续 5 秒，并重复 4 次以匹配 20 秒的对照组声音。

步骤： ¶

在实验中，参与者坐在光线昏暗的双层磁屏蔽室内。投影的屏幕放置在参与者面前 1 m 的距离处。声音刺激通过兼容 MEG 的插入式耳机以适合听众的音量呈现。实验中有三个block（条件）（图 1）：(1) 想象条件，(2) 感知条件，以及 (3) 控制条件。每个条件包含 15 个试验。在图像和感知条件下，每个试验选一首目标诗，三首诗各选5次作为目标诗，共15次。三个条件的呈现顺序在受试者之间使用拉丁方设计排列，并且一个条件下的 15 个试验的呈现顺序是随机的。

在每次试验开始时，屏幕上都会显示指导语。在意象状态下，指令为“请跟随纯音在脑海中大声想象下面的诗”，目标诗的内容呈现在屏幕上。参与者准备好后，用右手的食指按下响应按钮。之后目标诗歌的视觉内容消失，屏幕中央出现一个注视点。在 1-1.5 秒的随机间隔后，向受试者双侧呈现一系列纯音作为参考声音，纯音之间的间隔为 250 毫秒。因此，刺激呈现率标记为 4 Hz。同时，要求受试者跟随参考音在脑海中想象目标诗歌四次，从而在 80 个纯音之后形成 80 个音节的心理结构。关键是，80个音节组成16个句子，每5个音节组合成一个句子；因此，句子的节奏被标记为 0.8 Hz。通过应用频率标记范式，研究者能够跟踪由想象语言的内部构造引起的节律神经信号，而无需在想象条件下发音。在感知状态下，指令是“请仔细听下面的诗”，目标诗的内容也显示在屏幕上。试验结构与图像条件下的相同，除了目标诗歌的真实言语刺激与参考声音一起呈现，并且要求参与者听真实的诗歌而不是形成言语心理意象。一首诗歌中的句子级节奏也被标记为 0.8 赫兹，刺激/音节级节奏被标记为 4 赫兹。在对照条件下，指令为“请在脑海中自由数数”，参与者不严格按照纯音的呈现在脑海中数数，直到声音序列结束。控制条件下的自由计数任务是为了保持参与者的注意力并控制由纯音呈现引起的 4 Hz 刺激水平反应。正式实验前，要求被试能流利地背诵三首中国古诗。参与者经过训练后均能根据参考音生成汉语诗歌的想象语音。 MEG 数据使用北京大学的 306 个通道的 Neuromag TRIUXTM 全头 MEG 系统记录。应用两个眼电图 (EOG) 电极来监测垂直和水平眼球运动和眨眼，这些电极位于左眼下方和右眼上方。MEG 信号以 1000 Hz 的频率采样，并使用 0.1–300 Hz 的带通滤波器在线过滤。受试者头部的结构 MRI 数据是在 3T MR 扫描仪上收集的。

结果： ¶

传感器级脑磁图追踪了在刺激频率为4 Hz和句子频率为0.8 Hz时精确标记的节律性神经活动(图2)。

在图像条件下，研究者观察到0.8 Hz时显著的频谱峰及其谐波。在4 Hz时发现了稳健的响应，对应于纯音的呈现率。在感知条件下，研究者发现了显著的光谱峰，不仅在0.8 Hz 及其谐波，但也适用于1.4 Hz至4.4 Hz的其他频率，交错频率为0.2 Hz。0.2 Hz的交错谱峰是在感知条件下，同一首诗在一次试验中重复呈现造成的。在4 Hz时观察到一个鲁棒谱峰。在对照条件下，只有在刺激频率为4 Hz时才检测到显著的峰值。在4 Hz刺激水平和0.8 Hz句子水平下，反应功率的拓扑分布均表现为双侧反应。特别是，在4 Hz时，在图像条件下和对照条件下均观察到右侧侧化功率响应，而在感知条件下未观察到右侧侧化功率响应。然而，在0.8 Hz的句子节奏下，想象言语和感知言语均未出现半球侧化现象。在捕捉到每种情况下的节律性脑电反应后，研究者使用重复测量方差分析比较了不同情况下的频谱反应(图3)。

在4 Hz的刺激水平下，条件的主效应是显著的。事后比较(Bonferroni修正)显示，与对照条件相比，感知条件下的峰值功率增强。想象组的峰值功率小于感知组，与对照组无显著差异。在0.8 Hz的句子水平上，条件的主效应也显著。有趣的是，研究者发现语音想象组和语音感知组的峰值功率高于对照组，而想象组和感知组的峰值功率无显著差异。综上所述，这些结果表明，想象和感知的言语都会诱发句子频率下的节律性神经反应，同样的纯音听觉输入也能诱发类似刺激速率的神经反应。

研究者应用 L1 标准数源估计方法来探究哪个大脑网络产生标记神经活动，观察到诗歌想象中涉及的两个关键神经簇，具体而言，与诗歌中句子水平的节奏相对应的0.8 Hz频率下，左额下回(IFG)和右边缘上回(SMG)的眼部和三角形部分被显著激活。在感知条件下，受试者在听诗时，脑区包括双侧STG、左侧Heschl’s gyrus (HG)、左侧unceus (PrC)、右侧SMG和右侧顶叶下小叶(IPL)在内的脑区在0.8 Hz下被激活(图4)。

在4 Hz的刺激速率下，涉及的脑区更广泛，从双侧听觉皮层延伸到分布式皮层网络(图5）

研究者发现，在0.8 Hz的句子速率下，想象和感知语音都有反应的重叠脑区(图6a)，这些区域位于右侧SMG。左侧IFG的激活仅由想象而非感知语言引起，而其他大脑区域，包括双侧颞叶皮层和右侧下顶叶，仅与感知而非想象语言有关。这些结果表明，想象和感知语言中句子水平节奏的神经跟踪依赖于具有共享的和不同皮层区域群的大脑网络。

为了进一步区分由想象和感知的语音引起的节律反应，研究者在额外的分析中比较了使用全脑配对 t 检验的条件下 0.8 Hz 和 4 Hz 的源活动（图 6b）。这一分析弱化了语音图像和感知中常见的神经激活，并突出了它们之间的差异。研究者发现，在0.8 Hz时，感知语言比想象语言在左侧中央前回(PrG)、在4 Hz时，左侧额叶中回(MFG)和左侧STG诱导的皮层激活更强。这一分析表明，这些区域在处理自下而上的实际语音输入而不是自上而下的想象语音组织方面发挥重要作用。此外，在4 Hz图像和对照条件下的神经活动对比显示，右侧SPL存在显著差异，表明在背侧通路图像诱导的顶叶失活。

讨论： ¶

在本研究中，想象言语中的节奏结构被定义为在想象的诗歌中周期性地将音节组合成句子，以便神经系统能够在与音节和句子的呈现率相对应的标记频率上跟踪频谱反应。注意，诗歌中的句子级节奏不仅是由基于句法或语义的分块引起的，而且还与韵律有关，句子中最后一个单词的元音在语音上匹配，从而导致诗歌中的循环模式。押韵还会诱发韵律预期，从而调节语音识别中的早期语音处理，并导致预测性语音分割。因此，本研究中捕捉到的句子级韵律神经活动，本质上是由诗歌内容的语音、句法和语义细节的多个成分诱导的。本研究的核心发现是我们能够在想象语音中跟踪句子水平的节律性神经活动，并进一步定位响应这种内部语音构建的神经簇。在今后的研究中，确定语音、句法和语义成分对内部言语形成的作用是非常重要的。

在此研究中，有报道称与言语的无声发音有关的左额叶下皮层，和与记忆存储和检索以及听觉工作记忆密切相关的右颞顶叶交界处在诗歌想象过程中被发现在句子层面的节奏被激活，这可能是由于参与者试图在他们的脑海中产生诗歌时为生成语音序列做了准备，左IFG和右SMG有助于将数字组织成心理群体，这表明这些大脑区域在构建想象语音的自上而下诱导机制中起着至关重要的作用。在没有外部信号的情况下，及时跟踪个体的内在主观表征以识别与图像相关的神经活动是困难的，频率标记范式将是一种很有前途的工具，用于研究无声发音或没有明显发音运动的隐蔽语音产生的神经动力学。在未来的研究中，应该考虑在我们的范式中发现的想象言语的神经表征是否可以扩展到对内在言语的更丰富的解释。本研究存在一些需要解决的局限性。在频率标记的 MEG 响应中，我们在 0.8 Hz 的句子速率和 4 Hz 的刺激速率下发现了类似的光谱峰值。将来，应该检查在想象的语音生成过程中与频率标记的频谱响应相关的时间动态。此外，视觉提示可能会在未来的研究中用作参考刺激，以进一步消除与音调相关的大脑反应对语音或图像诱导的神经激活的影响。

总结： ¶

本研究同时跟踪了语音意象中的由节奏结构产生和精确标记频率的刺激驱动处理所引起的神经活动，观察到想象语音和感知语音在句子节奏上的神经跟踪相似，并进一步定位了想象语音和感知语音节奏结构反应的重叠和不同的神经群。发现在言语心理意象构建过程中，左IFG和右SMG在句子节奏处被激活，而在感知条件下，颞顶叶连接处被共同激活。本研究结果通过阐释语音心理意象中嵌入的高阶节奏结构的神经表征，支持了意象和知觉之间存在共同机制的观点。