等时性在语音感知中的作用



文献:Aubanel, V., & Schwartz, J. L. (2020). The role of isochrony in speech perception in noise. Scientific Reports, 10(1). https://doi.org/10.1038/s41598-020-76594-1 论文原文

哺乳动物大脑活动的一个基本特性是振荡性,导致神经元组合在可兴奋和被抑制状态之间交替。 与语音相关的振荡活动最初被描述为语音夹带entrainment或跟踪,此观点提出,皮层活动可以或多或少直接与语音信号的某些特征匹配,如振幅包络envelope。识别特定事件以支持语音跟踪的需求反过来又提出了振荡活动将涉及哪些单元的问题。音节通常被认为是正确的候选单元,因为在清晰的语音条件下,音节边界的时间与振幅包线变化较大的时间非常接近。这些条件远不能代表人们通常是如何感知语音的,因为连贯语音在声学上缺乏显著的音节界限。 等时性假设引出了节奏类假设,该假设认为:根据使用哪个单位来形成等时音流,语言可以分为不同的节奏类,主要有两种:1,基于等时韵脚的重音计时语言(如英语)。2,假设音节长度相等的音节计时语言(如法语)。然而,等时性假说和节奏类假说一直存在争论。 语音中的等时化的优势:以理想的等时化速度传递的语音单元将最大限度地可预测,并通过减少对相位重置机制的需求,产生最大程度的夹带。但自然产生的语音很少是等时的。“假定等时性在语音处理中具有有益的作用”与“假设将自然语音计时视为黄金标准,任何偏离都将损害其识别”相矛盾。

研究者试图解开等时性和自然性两时间维度在言语知觉中的作用。分别在法语和英语口语句子上进行两个实验,每个实验代表了两个节奏类。利用哈佛语料库的英语语料库和法语语料库。两种语料库都包含由5-7个关键词组成的句子,每个语料库随机抽取180个句子。句子在重音和音节两个层次进行标注,分别构成了上述两个主要语言韵律类的基础。

通过局部压缩或拉长与重音组或音节的节奏单位对应的语音部分,将自然生成的句子重新计时为等时形式或不等时形式。重新计时围绕被试报告出现单位的时间进行操作。重音(acc)或音节(syl)节奏单位的未修改时间开始作为自然节奏(NAT)条件的参考,从其中定义了等时(ISO)和非等时(ANI)条件。总共提供了每个语料库中每个句子的5个时间版本:未修改的自然版本(NAT),重音(ISO.acc)和音节(ISO.syl)水平上的等时刺激,以及重音(ANI.acc)和音节(ANI.syl)水平上的非等时刺激。ANI条件是ISO条件的对照。 之后研究者评估了对自然性所做的等时性修改对听者处理和理解相应语音项的影响。句子刺激与稳定的类语音的噪音混合,使理解能力低于上限。将噪声中的五种类型的句子集呈现给母语听者,并以识别关键词的比例作为相应句子在相应条件下的可理解性指标。自然性是可解性的主要因素,音节水平上的等时性起着补充作用。

英语:26名参与者(21名女性),平均年龄20.9岁(SD = 6.3岁),所有人都以澳大利亚英语为母语,无听力问题。法语:27名参与者(15名女性),平均年龄为26.7岁(SD = 8.8),母语为法语,无听力问题。

一,在两种语言中,自然时长比等时或不等时的语音更容易理解。 图1显示了法语和英语被试正确识别关键字的比例和应用于每个条件下的句子的时间变化的理解结果。自然语音在条件水平上的净时间变化似乎反映在听者的表现中,时间变化的增加与两种语言的可理解性下降有关。

图1

图2

图1和图2前4行证实,法语中未修饰自然时句的可理解性显著高于任何时间修饰条件下的句子,与英语的结果相同。且任何时间上的扭曲都会导致可理解性下降。然而,英语中重音等时重计时的句子明显比重音非等时重计时的句子更容易理解,但在法语中没有观察到这种影响(图2第5行)。同样,在英语中观察到的音节水平上的等时与非等时可理解性差异的趋势在法语中没有出现(图2第6行)。当结合两种节奏水平时,观察到英语的等时转换优于非等时转换,但在法语中没有(图2第7行)。 如表1最后一行所示,在法语和英语中,音节级失真比重音级失真导致的可解性下降更大。这与应用于句子的重音级修饰相比,应用于音节级的失真更大有关,见图1。 等时性的独立作用似乎在两种语言之间有所不同。 二.音节等时性在两种语言中都起次要作用,在自然计时的句子中也是如此。 使用逻辑回归模型分析了等时性和自然性在不同时间条件下的联合作用。 图3显示了在英语和法语的所有5个实验条件下,沿4个指标应用于句子的可理解性分数作为时间失真的函数。

图3

1,自然时长句的等时偏离(图3 A区) 自然计时的句子在设计上与自然的偏离为零,但在重音和音节层面上与等时形式的偏离可以分别用diso-acc和diso-syl度量标准来评估。从最初的逻辑回归模型开始,预测语言(法语和英语)的可理解性,最简单的等效模型是只有dio -acc和diso-syl因素而没有相互作用的模型(见图4)。

图4

对于自然句子,可解性与偏离重音等时性正相关(即,重音组不规则性的增加与更好的可解性相关),与偏离音节等时性负相关(即,自然时长的音节等时性越多,句子的可识别性越好),法语和英语都显示了相同的结果模式。 2,在同步重计时的句子中偏离自然时长(图3B) 研究者评估了在重音和音节水平上,在与自然节奏的偏离中,在等时条件下可预测的理解程度(见图3B)。最简单的等效模型仅包含dnat-syl因子(见图5)。

图5

在句子等时转换的条件下,可理解性与脱离自然音节节奏显著负相关。关键是,脱离口音组的自然节奏并没有发挥作用,两种语言的结果相同。 3,在非等时重计时的句子中偏离等时和自然时长(图3C) 评估了非等时重定时句子的可理解性是否可以通过四个节奏变化指标的组合来预测(diso-acc, diso-syl, dnat-acc and dnat-syl),最简单的等效模型由因子dnat-syl和diso-syl的相加模型组成。 首先,重音组的节奏单位在预测非等时语音的可理解性方面没有任何解释力。其次,自然音节时长的作用得到了证实,它是该模型中可理解性的最强预测因子(图6)。

图6

第三,检测到偏离等定时音节的作用。这意味着在说话时间最不可预测的情况下,有一种与可理解性增加相关的等时音节的趋势。

第一个重要结果:等时性言语不如自然时语态的言语容易理解。在本研究中,语音的内部节奏结构发生了变化,但句子持续时间保持不变,对自然产生的语音单位计时的任何时间变化似乎都是有害的,时间变化的数量是可理解性下降的一个强有力的预测因素。这一结果违背了这一假设,即等时语音由于其单位的理想定时,减少了对恒定相位重置的需要,因此更容易跟踪。 在条件水平上,英语的等时性比非等时性有优势,但法语没有观察到这种趋势。研究者根据条件分别检查可解性和四个计时指标之间的关系,发现对于自然计时的句子,可解性与句子在音节水平上与理想等时形式的偏离程度相关。即在音节水平上自然等时的句子比自然非等时的句子更容易被识别。对于等时重计时的句子,可解性与偏离自然性有很强的相关性。但这一结果只适用于音节级,偏离自然时间的重音组不能解释可理解性的变化。对于非等时句子,两种音节节奏指标(偏离自然节拍的音节和偏离音节等时的音节)与可理解性相关,这表明在言语理解中,音节节奏的两个时间维度都是积极依赖的。 至关重要的是,所有三项分析都没有发现语言是解释可理解性的一个重要因素,同样的结果适用于英语和法语。结果的无差别性质可能有两个含义:1,等时效应可以全面适用于任何语言。2,本研究结果表明,音节是时间语音处理的核心单位。即使是重音计时语言,音节的等时效应也比重音组更强,这表明与音节相关的时间尺度是关键,而不是它的语言功能价值。