不同噪声下持续元音发声时发声基频和共振峰的听觉诱发反应

文献：Lee, S. H., Hsiao, T. Y., & Lee, G. S. (2015). Audio–vocal responses of vocal fundamental frequency and formant during sustained vowel vocalizations in different noises. Hearing Research, 324, 1–6. https://doi.org/10.1016/j.heares.2015.02.005 论文原文

INTRODUCTION: ¶

言语交流依赖于中枢神经系统和周围神经系统复杂的感觉-运动集成。发音器的速度方向模型(DIVA)认为语音输出的前馈控制是基于习得的运动命令进行的，而听觉反馈对发音的修正主要是由实际听觉反馈信号与听觉感官预期之间的不匹配引起的(Tourville et al.， 2008)。听觉反馈是有助于人类语音学习和发音稳定的最重要的感官信息之一，并且在语音产生和听觉接收之间存在相互作用，在听觉干扰下倾向于诱导对声带振动和语音发音的主动和反射性控制。当自我产生的声音的听觉反馈被延迟、音调转移、噪声掩盖或大大减弱时，说话者可能会在声基频(F0)、共振峰转变、声音强度、语速和/或鼻共振方面出现显著变化。 F0在整个发音过程中不是一成不变的，存在节律性波动，可能源于听觉反馈的调节、发声的空气动力学或喉部肌肉收缩本质上的内在异常。声带振动的每个周期在时间上并不完全相同。声带振动的节律波动在频率上是不同的，并且一般分为声音wow (0-3 Hz)，声音颤音(3-8 Hz)和声音颤振(≥8赫兹)。“wow”是一种低于3hz的周期性变化，是声带振动的基础。这种本质上的不稳定性不能被完全抑制。在我们之前的研究中，嵌入在周期到周期声带振动信号中的低频波动被认为与听觉诱发相互作用有关，并且当说话者在受干扰的听觉输入下保持元音[a]时，低频波动往往显著增加。注意，这里分析的是F0在3hz以下的波动，而不是声音F0本身。F0的更快的脉动，通常在3hz到8hz之间，即声音颤音，与喉部运动神经元池的主动调制和听觉系统的控制有关，可以被有意地产生、抑制或在训练后被修改。F0中超过8赫兹的节奏是另一种声音波动的来源，称为声颤振。F0的快速振荡可能代表发声过程中声门内收-外展控制系统的自然振荡。

本研究： ¶

先前的发现表明，在有噪声掩蔽的正常听力说话者及语后和语前听力受损说话者中，F0的低频节律显著增加。这些发现支持声带振荡的非自愿调节与听觉反馈有关，这些反馈反应了来自自生成语音的预期和实际听觉信息之间的不匹配。但语音材料和噪声的类型仅限于元音[a]和语音噪声，尚不清楚其他语音和不同类型的噪声掩蔽是否也会以相同的方式改变随后的F0甚至语音清晰度的听觉诱发反馈调制。因此，本研究包括三个具有不同共振峰频率的语音，以阐明F0反馈是否依赖于共振峰能量。还使用不同频段的噪声掩蔽来探索F0以及共振峰频率对共振峰能量信息损失的响应。此外，还评估了发声的可听性，以探讨F0反馈与听觉注意系统的关系。所有发言者都被要求发出第一声调的元音和音节。

被试： ¶

受试者20人，男10人，女10人，年龄20~40岁，既往无神经功能障碍、言语语言障碍、上呼吸道感染病史，也无发声训练经历。所有参与者都通过了听力筛查测试。

声音采样： ¶

语音记录在背景噪声低于40dBA的声音处理室中进行，由声级计监测。在假设不同语音有不同的听觉诱发反馈的情况下，所有受试者被要求保持开放元音[a]、闭合元音[i]和鼻化音节[mə]尽可能稳定地持续至少6s。声音强度在笔记本电脑上实时显示，以帮助说话者在所有听觉条件下将声音强度保持在70e80dBA的范围内。为了研究不同类型的鼻掩蔽是否以及如何干扰语音材料的听觉反馈，在发声过程中向说话者引入了五种听觉条件：无掩蔽听力状态(NO)、仅戴耳机(EO)、言语噪声掩蔽(SN)、高通噪声掩蔽(HPN)和宽带噪声掩蔽(BBN)。每个语音材料在每个听觉条件下都被记录了两个尽可能稳定的声音，并对两个声音的分析结果进行了平均，以供以后的数据统计。每个参与者的语音顺序和听觉条件随机安排。引入的噪音是由实验室开发的程序和内置的声音适配器(华硕A43S/Realtek高清音频)产生的，并通过耳机(Telephonics，TDH-50)以85 dBA的强度双耳引入扬声器。在对每个参与者进行测试之前，使用标准声级计和6-C.C.对噪声进行了校准。语音信号以44.1 kHz的采样频率获得，并以16位格式存储。为了了解听觉知觉和听觉诱发反馈系统之间是否存在交互作用，在每种类型的听觉条件下，在两种发声之后，所有参与者都主观地对自己的声音的听觉知觉进行评分，方法是给自己的声音打一个12厘米的视觉模拟量表，其中0厘米表示对自己的声音没有听觉感知，12厘米代表对自己的声音在正常聆听状态下的清晰感知。

结果： ¶

声强：所有受试者的发声强度如表1所示。

三种语音类型的平均发声强度有显著差异。五种听力状态的平均发声强度差异也有统计学意义。元音[i]比元音[a]和鼻音节[mə]分别低2.8dB和1.6dB(p<0.0 5)。SN和BBN的平均发声强度(1.1-1.4dB)也明显大于无发声状态(p<0.05)。

发声基频：图2显示了五种听觉状态的元音[a]、[i]和鼻音节[mə]的平均F0。

不同语音间的平均F0差异有统计学意义，元音[i]的F0显著高于元音[i]和鼻音节[mə](p<0.0 5)。鼻音节[mə]的平均F0也显著高于元音[a](p<0.0 5)。然而，对于三种语音中的每一种，五种听觉状态之间的F0没有显著差异，即噪声掩蔽对F0没有显著影响。语音类型与听力状况之间的交互作用也不显著。

发声基频功率谱分析：图3显示了所有参与者的元音[a]、[i]和音节[mə]的平均lfp。

不同听觉条件下的平均LFP（低频功率）差异有统计学意义，不同语音间的平均LFP差异无统计学意义。语音类型与语音之间的相互作用听力状况差异无统计学意义。在单独的配对比较中，无掩蔽听力状态的LFP显著低于其他四种听觉条件的LFP(p<0.05)。这些结果表明，F0的低频调制与听觉系统密切相关，并且随着耳机和/或噪声对听觉输入的衰减而增加。在三种不同类型的语音中，受影响的F0听觉诱发控制是一致的。LFP与说话者自身声音的听觉知觉等级之间存在显著的负相关(图4)。

对于MFP（中频功率）和HFP（高频功率），五种听力状态组间差异无统计学意义(p>0.05)，MFP和HFP对噪声掩蔽的响应没有显著变化。

第一共振峰和第二共振峰：图5显示了所有受试者在五种不同听觉条件下[a]、[i]和[mə]的第一共振峰(F1)和第二共振峰(F2)的平均频率。

语音间F1频率差异有统计学意义，其中元音[a]的F1频率最高，鼻音节[mə]的F1频率也显著高于元音i五种听力状态组间比较差异无统计学意义。对于F2，三个元音的平均频率差异显著，元音[i]显著高于其他两个语音(p<0.05)。但所有语音在五种听觉条件下的组间差异没有显著意义。对于共振峰频率的变异性，只有不同元音的F1标准差百分比存在显著差异。但五种听功能的组间差异无统计学意义。F2标准差百分比既无元音间差异，也无条件间差异。

讨论： ¶

结果表明，无论发出何种语音，当被试者的听觉反馈受到噪声干扰或仅被耳机屏蔽时，F0的低频调制均有显著增加的趋势。但在本研究中使用的不同语音材料中，干扰听觉条件对发声F0和共振峰频率没有显著影响。这些发现提示听觉诱发反馈主要作用于F0的调制，特别是3hz以下频率的调制，而不是元音产生中前两个共振峰的发音。这一差异支持以下观点：持续发声的F0稳定性基本上依赖于对语音产生的闭环控制，并且主要由连续的音频诱发反馈来维持。对听觉输入的干扰会导致对F0的反射式调整，使F0在<3赫兹的低频下类似于摇摆。而语音清晰度可能主要是由存储的前馈运动命令引导的，这些命令是由以前的语言学习建立起来的。说话者即使没有足够的自己发音的听觉反馈，也能够保持发音，因此共振峰频率不会因不同类型的噪音掩蔽而发生显著变化。基于声刺激高阶认知加工的并行-分布式加工模型，可认为听觉信息是在感觉记忆系统的几个区域同时加工的，而不是按顺序从记忆结构转移到另一个区域。因此，该并行处理模型可以允许与听觉诱发反馈相关的各种神经机制同时进行。在这项研究中，在所有三种噪声掩蔽类型和三个元音中，F0的调制在≦3 HZ的低频范围内显示出一致且显著的增加。F0对噪声掩蔽的反应保持在如此低的频率范围内，这可能表明F0的听觉诱发反馈控制需要一条很长的神经通路来完成这一动作。此外，LFP与说话人自身声音的听觉知觉等级显著相关，表明听觉注意系统参与了这类反馈控制。最重要的是，研究结果表明，利用连续元音的语音材料，可以用F0的功率谱分析来评估F0的听觉诱发反馈，并且反应在元音之间表现出一致性。 F0的听觉诱发控制似乎受到说话人自己声音的听觉输入量的显着影响。声调的控制高度依赖于F0的控制，不同声调的持续元音的F0反应的差异仍然不清楚，还需要进一步的研究来澄清。对F0节律和共振峰的听觉诱发控制的充分理解需要在连续语音中进行进一步的研究，但目前的发现表明在持续的言语产生中，发声和发音运动存在不同的运动言语控制机制。与实时听觉输入相比，语音清晰度与前馈运动指令的关联性更强，F0的节律调制对听觉反馈的减少更为敏感。F0低频调制的测量是一个很好的听觉反馈状态的指标。利用本研究的模型可以探索F0和发音的听觉诱发控制，并可用于临床评估听觉诱发运动控制对听力、神经、语音障碍的影响。