区分汉语声调的重要线索



1.参考文献 ¶

Tupper, P., Leung, K., Wang, Y., Jongman, A., & Sereno, J. A. (2020). Characterizing the distinctive acoustic cues of Mandarin tones. The Journal of the Acoustical Society of America, 147(4), 2570-2580. http://doi.org/10.1121/10.0001024

论文原文

2.研究背景 ¶

听觉上,声调主要表现为基频(F0/音高)、持续时间和幅度的变化。这类研究的难点在于,音高轮廓描述的是F0如何随时间变化,需要在每个瞬间记录F0,但这是不切实际的,可以用少量线索来描述音高轮廓的特征。那么哪些线索对描述汉语音高轮廓最有用呢?当前的研究考虑了广泛的线索,并评估哪些线索最能区分不同声调。

早期的许多研究使用人工合成的声调,并通过感知任务来进行。一项重要的早期研究将音高轮廓放置在二维空间中。当呈现声调刺激时,该空间被认为是感知空间。通过分析两个维度,并确定它们大致就是“高度”和“方向”。“高度”是每个声调的平均F0,而他的“方向”对应于F0轮廓的斜率,或者说是朝向轮廓末端的斜率。后续研究确定了平均F0和斜率是关键的声调线索。平均F0定义为F0周期内的F0均值。但“斜率”有几种不同的定义方式。(1)对音高轮廓进行标准化,使其有相同的持续时间,例如1个时间单位。一些研究人员使用结束时的F0和开始时的F0之间的差异,得出其斜率。(2)用F0值的范围除以持续时间。因为始终得出正值,所以无法区分相同斜率的下降声调和上升声调。(3)线性函数拟合音高轮廓。此项研究会使用这个方法来计算斜率。

只使用均值和斜率来表征音高轮廓也存在问题,因为其不能描述某些音高轮廓的最显着特征:曲率。例如3声从高处开始,向下倾斜,然后返回到几乎相同的高度,通过计算得出的斜率几乎为零。如果平均值和斜率是唯一的线索,3声与1声将无法区分。因此有必要引入至少一种额外的线索来描述音高轮廓的变化。此项研究通过将抛物线拟合到音高轮廓来实现。

其他研究发现,动态和局部线索也很重要,例如平均和最小F0速度、F0起始点、转折点位置(TP)和△F0。TP定义为起点和最低点之间的时间间隔;△F0定义为从起点到转折点F0的下降程度。 TP有助于区分2声和3声。此项研究使用折线拟合模型描述转折点。时间线索也与声调感知有关,包括周期性,振幅轮廓和持续时间。在此项研究中,也考虑了与时间有关的线索。

研究目的(1)研究不同的线索,并使用Cohen’s d来确定它们在区分声调方面的表现如何,进一步确定有效的线索;(2)使用Sparse PCA确定哪些线索在功能上等效;(3)使用线性判断分析(LDA)找到能够说明音高轮廓重要变化的线索,以确定表征声调的最佳线索。

3.研究方法 ¶

21名本科生和研究生(11位女性),汉语母语者,出生后的前12年在中国北方或台湾长大。听力正常,没有语言或言语障碍。

使用单音节/e/,“婀”(/e1/ 1声),“鹅”(/e2/2声),“恶”(/e3/3声)和“饿”(/e4/ 4声)。 也包括四个声调的/i/和/u/。由于/e/是中元音,在三个元音中的舌移动最少,推测它与声调的相互作用最小,因此在此分析中只选择了该元音。

记录被试说的话。被试坐在电脑旁,屏幕上显示线索、说明和反馈。

从热身阶段开始,有助于使被试熟悉界面和材料,并允许他们练习目标词。热身阶段的结果不包括在分析中。然后,被试完成了三个诱发模块,并被要求自然说话,单词的产出是随机的。每个被试共产出49个/e/,包括11个/e1/、12个/e2/、15个/e3/、11个/e4/。每个被试的产出顺序都是相同的。由于错误,排除了四个/e/的产出,分析中共包括1025个/e/产出(21*49– 4)。

每个被试的产出都由两名受过培训的汉语母语评估人员评估。

4.数据分析 ¶

将音高轮廓分为100个相等的时间间隔,使用101个时间点的数据来获取F0值。使用T值对数变换对四个声调的音高轮廓进行标准化。

图1

其中x代表观察到的F0,a和b分别是被试的最大F0和最小F0。从而得到所有被试产出的四个声调的标准化音高轮廓。

研究22个线索。线索1是总持续时间。通过将抛物线拟合到音高轮廓上,得到线索2、3、4:平均F0,F0斜率和F0二阶导数(曲率)。在时间间隔[0,1]上,f(t)中的t为标准化音高,0<=t<=1。通过找到最佳系数c0、c1、c2使抛物线拟合音高轮廓:

图2

c0是均值,c1为斜率,c2为二阶导数的一半,也就是曲率。

通过折线拟合来描述TP和△F0。d0为折现拟合起点,d1为第一部分直线的斜率,d2为断点位置,d3为的第二部分直线的斜率。将d0、d1、d2、d3作为线索5-8。然后使用这些线索获取另外三个线索:onglide(线索9)是折线起点与断点的F0之差,offglide(线索10)是断点和终点的F0之差,overall(线索11)是折线起点和终点的差。

线索12是F0的范围,为最大F0与最小F0之差。线索13-17是F0值,分别在周期的0%,25%,50%,75%和100%处测得:线索13是起点的F0值,线索17是终点的F0值。由于F0转折点位置以及转折点上的F0值与2声和3声辨别有关,因此测量了音高轮廓最大值和最小值的位置,分别为线索18和19。

最后三个线索(20、21、22)是平均强度、最大强度、以及最大强度的位置。

5.结果 ¶

使用Cohen’s d来衡量特定线索的重要性。d绝对值大小表示两组之间的差异,并衡量线索对区分声调的有效性。正值表示第一组的值更大;负值表示第二组的值更大。第一组由特定声调的线索组成,第二组由其他三个声调的线索组成,然后计算d。

图3

1声:线索2(平均F0)对大多数被试有较大的正值,线索12(F0范围)的d值小于其他声调,线索2和12对所有被试都具有很强的影响(较大的|d|)。

图4

2声:线索3(斜率),线索5(BLstart),线索11(overall)和其他几个线索,d值都比较大。

图5

3声:对于所有被试,线索15(F0 50%)d的负值都小于-2。线索2(平均F0)与线索15相似,但在被试中并没有那么一致。

图6

4声:线索3(斜率)和线索11(overall)是两个重要的线索。

为了找出最重要的线索,先列出每个声调的d绝对值最大的五个线索,发现线索2-4和线索13-17都很突出。

图7

由于某些线索相关性很高,例如,线索2(F0均值)和线索15(F0 50%)都可用于区分声调,但两者都高度有关,因此都使用是多余的。为了量化这种多余性,计算22个线索的相关性。

图8

分析提供相关线索的分类和该线索组别的重要性排名,与斜率相关的线索包括3、8、10、11、17。其次是平均值相关的线索、与曲率相关的线索。平均和最大强度,其后是由单个线索。其余组别不能解释太多变化。最后一列说明了哪个线索在组别中“最重要”。

Sparse PCA分析的结果支持使用多个线索,这些线索来自三个主要组别中的“最重要”线索。

使用LDA衡量一对线索的好坏。如果给定一组线索,可以通过线完美地分开,则分类准确度将为100%。如果一组线索没有效果,那么分类准确度将为25%,因为有4个声调。

图9

表IV显示了分类准确度最高的前5对线索,最好的一对线索是斜率和曲率。接下来的四对,几乎每对都由与斜率和曲率高度相关的线索组成。

图10

此外,还确定了包含第三个线索是否可以改善声调的区分性。在表V中显示了LDA分类准确性前三名的结果。只有斜率(3),曲率(4)和平均强度(20)组成的组合线索能够提高分类准确度,且优于原先的最佳组合(3和4)。因此,声调间的大多数变化都在两个线索中被捕捉到。

6.讨论 ¶

使用Cohen’s d来确定单个线索在区分声调方面的表现。由于单独的线索不足以区分音高轮廓,因此需要考虑一组线索,而且彼此之间不高度相关。使用PCA来识别多余的线索。发现三个主要组别是(i)与均值相关的线索,(ii)与斜率相关的线索,(iii)与曲率相关的线索。使用LDA确定最佳的组合线索,最终选择了斜率和曲率。