1.参考文献 ¶
Zhang, Y., & Kirby, J. (2020). The role of F0 and phonation cues in Cantonese low tone perception. The Journal of the Acoustical Society of America, 148(1), EL40-EL45. https://doi.org/10.1121/10.0001523
2.研究背景 ¶
对于词汇声调感知,人们普遍认为 F0 很重要,例如它的高度和轮廓 (Gandour,1983),但发声模式,例如呼气声和嘎裂声,也与声调感知密切相关。对于像北越南语,发声模式在感知某些声调时可能比 F0 更重要(Brunelle,2009)。发声模式和F0之间的感知关系可以从根据Kuang (2013, 2017) 提出的发声连续体进行预测。在说话者最舒适的音高范围,语音质量是标准的。在连续体的一端,声调降低,声音变得更紧张,会导致嘎裂声(声音嘶哑)或吸气声。在连续体的另一端,随着声调升高,音质也变得紧张,最终可变成假声。
有一些证据表明发声模式在声调感知中的作用。例如,Yang (2015) 发现普通话听者依赖发声线索来识别3声 (T3, 214)。 Yu 和Lam (2014) 在他们对粤语低声调识别的研究中发现嘎裂声使听者偏向最低声调T4。白苗族语言还包含两个低声调,低降调(m, 21) 和低平调 (s, 22),与粤语T4一样,m声调可以通过音位变体的嘎裂声来实现 (Garellek et al., 2013)。然而 Garellek 等人报告,嘎裂声的存在对于声调识别并不是必需的。
这些研究的不同结果可能归因于不同语言的差异,但使用的研究方法也可能有影响。嘎裂声具有多种声学相关性,包括 F0 谐波幅度的较低差异(较低的H1-H2)、较强的高频谐波(较低的H1-An)和不规则的脉冲波(Keating et al., 2015 年)。
Garellek (2013) 等人使用的再合成方法可能对嘎裂声的某些声学特性产生了不利影响。在准备他们的刺激时,他们使用基音同步叠加算法 (PSOLA) 提高了自然产出的非嘎裂声和嘎裂声部分的 F0。尽管他们小心翼翼地确保刺激保留了嘎裂声的频谱倾斜特征,但PSOLA过程会产生一个基本的周期性信号。因此,他们研究中的无效应可能是因为嘎裂声的低光谱倾斜和不规则脉冲线索不如 F0 线索重要。或者,保留嘎裂声刺激的频谱倾斜特征可能不足以克服不规则脉冲线索的的缺乏。
相反,Yu 和 Lam (2014) 使用的方法可能混淆了嘎裂声与F0。在识别粤语 T4/T6的任务中,将自然产出的嘎裂声 /au4/ 拼接到双音节 /jiu lau/ 的末尾,这原本是一个中声调(T3 )后接T6的序列–/jiu3 lau6/。使用 PSOLA 算法为目标音节 /lau/ 分配一个位于 T4 和 T6 之间的模糊 F0 轮廓,并操纵 /jiu/ 的 F0(半音)以在目标音节 /lau/ 中创建“音高连续体”。对于嘎裂声处理,选择了双脉冲嘎裂声进行交叉拼接。双脉冲是一种不规则脉冲,定义为“在周期或幅度上交替变化的成对的声音周期”(Gerratt 和 Kreiman,2001;Keating et al.,2015)。这种嘎裂声有不止一个 F0,通常一个高一个低,产生不确定音高的感觉。 Yu 和 Lam (2014) 认为这样的方法使他们能够分辨出 F0和嘎裂声线索对 T4/T6 感知的独立贡献。然而,由于它们用于交叉剪接的嘎裂声片段是在T4的低F0范围中自然产出的,因此它们可能不属于典型的双脉冲嘎裂声,而可能是有(超)低 F0 的双脉冲。在他们刺激的嘎裂声部分,某些相邻脉冲之间的距离比之前非嘎裂声部分的要长得多,这可能会导致目标音节末尾的低声调感知。因此,可能是这种低声调感知,而不是非常规脉冲或嘎裂声的频谱倾斜差异,导致Yu和Lam (2014) 发现了嘎裂声的主要效应。
研究方法:为了更好地控制F0和发声模式的相互作用,使用合成刺激对粤语 T4/T6 感知进行了研究。不仅包括嘎裂声,还包括紧音和呼气声,这些声音也与F0一起变化(Kuang, 2013, 2017)。有些研究将紧音归类为一种嘎裂声,包括紧音条件,是为了探索光谱倾斜和不规则脉冲对声调感知的不同贡献。粤语T4和T6之间的发声模式差异为紧张度(较低与较高的频谱倾斜)。此外还包括了呼气声。
这种方法能够解决两个问题:(1)发声模式线索在 T4/T6 感知中起作用吗? (2)发声线索如何与F0线索相互作用?假设非标准发声模式会在 T4/T6 感知中起作用,但是当F0也同时改变时,其效应的大小可能小于F0。对于第二个问题,有两种可能性。第一个是发声模式作为独立线索,即独立线索假设。第二种是非标准发声模式可能依赖于F0(Yang和Sundara,2019),并导致不同F0范围的不同感知。则会出现一种交互作用:双脉冲嘎裂声导致低、中和高F0范围的不同感知,只有低 F0范围的线索导致了对T4的感知。
3.研究方法 ¶
a.材料 ¶
使用在 PRAAT 中的KLATTGRID合成器 (Weenink, 2009) 来生成在 F0 均值、F0 变化和发声模式方面变化的语音刺激。粤语男播音员产出标准的/wa6/和标准的、音节结尾有嘎裂声和音节结尾有呼气声的/wa4/,用来指导语音合成。音节有 500 毫秒的持续时间并分为三个部分。第一个 3/10 部分模拟 /w-a/ 共振峰转换(P1:0–150 ms)。中间的 4/10 部分是/a/(P2:150-350ms)。最后 3/10 部分是元音结束(P3:350-500 ms)。结果,F1-4 从 400、760、2600 和 3600 Hz开始,并在 P1 结束处分别上升到 750、1050、3400 和 4300 Hz。在 P2、P3中保持不变。平均强度水平为70dB。
F0和发声模式条件叠加在音节/wa/上。对于F0条件,F0 范围的下半部分被分成五个等距的F0水平(110、100、90、80、70 Hz)。然后通过改变每个F0水平的下降程度(0、10、20 Hz)生成15个F0条件(5个级别和10 个下降的F0轨迹)。通过操纵开放相位(open phase,OP)、频谱倾斜(spectral tilt,ST)、双脉冲(DP)和呼吸幅度(breathiness amplitude,BA)合成了四种发声类型,即标准、嘎裂声、紧音和呼气声。OP定义为声门打开时间与整个声门周期的比值(KLATTGRID 中的百分比),与H1-H2相关(Esposito,2012)。ST规定在3000 Hz以下的dB,因此会影响频谱倾斜,如先前研究中使用的H1-An。已发现OP和ST,尤其是 H1-H2,可以区分多种语言中的发音类型(Keating 等,2010)。呼气音通常表现出较高的OP 和ST,而嘎裂和紧音则较低。
分配了稳定的 60% OP 和稳定的 10 dB ST给标准音。对于嘎裂声,OP和ST从60%和10dB开始,在P1、P2结束时分别下降到30%和0 dB,并且在 P3中保持恒定,为30%和0 dB。紧音的ST与嘎裂声有相同的轮廓,但紧音的OP以60%开始,并在 P1;2 结束时下降到25%。较低的最终OP使紧音比嘎裂声更“紧张”。呼气声的OP和ST也从60%和10 dB开始,但分别增加到70%和20 dB。这是为了确保合成发声的频谱测量值与语音学家的非标准音/wa4/大致匹配。通过延迟时间和衰减第一个脉冲的幅度来修改DP,DP稳定在40%,被添加到P3中以获取嘎裂声刺激。在开放阶段增加BA,在P1、P2中从0增加到60 dB,并在P3中保持恒定,以模拟呼气音。
b.被试和程序 ¶
共招募了 31 名粤语母语者,包括14名男性和17名女性。在隔音室中进行了一项声调识别和评分任务,评分任务用于给人工合成语音打分。语音刺激通过耳机在PRAAT中呈现。任务是通过单击代表T4(华、wa4)和 T6(语、wa6)汉字的两个方框来识别声调。然后,根据声调的好坏进行评分:1(非常差)–5(非常好)。共240个刺激(4次重复×15个F0轨迹×4种发声),被伪随机地分成4个模块。
4.结果 ¶
使用线性混合效应模型 (Bates et al., 2015) 和两个累积链接混合模型(cumulative link mixed models) (Christensen, 2015) 分析T4和T6的识别和评分反应。
对于识别任务,F0均值(B = 3:27;p < 0:001)和F0变化(B =0:36; p < 0:001) dou 显着预测了T4反应的概率,F0均值的影响大于F0变化。发声模式的影响没有达到显着性(呼气音:B =0:07;嘎裂声:B =0:15;紧音:B =0:07;ps > 0:05)。发现 F0均值和呼气声(B =0:24; p < 0:05)以及 F0 均值和嘎裂声(B =0:26; p < 0:05)之间存在显着的交互作用。呼气声和嘎裂声在低F0范围内增加了T4反应的概率,但这种影响在较高F0范围内减弱或有所逆转。
对于T4评分(平均 =3:62;sd =1:31),F0平均值和F0变化都显著改变了其评分。随着 F0 平均值的增加,T4得高分的概率降低(B =2:27;p < 0:001)。此外,随着F0变化的增加,T4得高分的概率上升(B =0:37; p < 0:001)。这种效应受F0变化与 F0 均值的交互作用调节——随着 F0 均值升高,F0 变化对T4得高分的积极影响降低(B =0:15;p < 0:01)。没有发现发声模式的显着影响,表明没有非常不自然的T4刺激。对于T6评分(平均 =3:27;sd =1:25),随着 F0 平均值的增加,T6得高分的概率显着降低(B =0:80;p < 0:001)。
5.讨论 ¶
F0高度和F0轮廓是粤语T4/T6感知的最关键线索,高度是比F0轮廓更重要的线索。嘎裂声的发声类型也可以在这种对比的感知中发挥作用,但它们的影响相对较小,主要通过它们与 F0高度的相互作用发挥作用,与第二种假设一致。