1.参考文献 ¶

Rhee, N., Chen, A. J., & Kuang, J. J. (2020). Going beyond F0: The acquisition of Mandarin tones. *Journal of Child Language, *(), 1-12. https://doi.org/10.1017/S0305000920000239

论文原文

2.研究背景 ¶

儿童语言能力的发展跨越整个童年，甚至到青春期早期。虽然语音对比（phonological contrasts）的习得始于婴儿期，但儿童可能直到发展后期才能在所有相关线索方面达到完全类似成人的能力。此项研究调查了汉语声调的习得。声调主要通过基频（F0）的高度和形状来区分。然而除了 F0，语音质量（voice quality）也是成人声调产出和感知的重要线索（Belotel-Grenié & Grenié，1994）。以前的研究已经调查了声调的产出和感知，但研究主要集中在7岁以下儿童F0区分能力的发展。因此，对声调对比的完整发展轨迹及其相关线索知之甚少。此项研究调查了更大范围年龄（4至11岁）儿童声调产出中的F0和语音质量线索，以有助于更好地理解儿童声调产出的完整发展轨迹。

儿童言语产出和感知的发展受尚未发育完全的声道和运动控制等生理因素以及听觉反馈等认知因素的限制（P. Liu、Chen、Larson、Huang & Liu， 2010 年；Shiller、Gracco 和 Rvachew，2010 年）。对英语元音产出的研究表明，年龄较小儿童产出的单元音比年龄较大的儿童和成人有更高的可变性；对于持续时间线索，在12岁时达到成人水平，而 F0、共振峰和频谱线索，在14和1岁时达到成人水平（Lee, Potamianos & Narayanan, 1999），14岁儿童的元音空间面积大于成人（Pettinato、Tuomainen、Granlund 和 Hazan，2016 年）。此项研究主要调查不同线索对儿童声调对比的习得情况的影响。

过去的研究已经调查了汉语婴儿和儿童在声调产出和感知方面的发展。在感知方面，早在 4 个月大时就观察到对词汇发音的早期敏感性（Yeung et al., 2013），但儿童对T1和T2的分类感知的界限在6岁之前并不像成年人那样敏锐，即使7岁时，识别准确度也达不到成人水平（F. Chen et al., 2017）。在产出方面，尽管儿童早在 3 岁时就会产出一些声调对比，但与成人的声调产出相比，即使在5 -6岁时，他们的产出也有更大的可变性（Wong & Strange，2017）。

汉语主要使用 F0 高度和轮廓来区分四种声调（Yip，2002）。然而，普通话的声调对比是通过几个次要线索产生的，包括持续时间、幅度和语音质量（voice quality）。降升调（T3）往往是用嘎裂声产生的，而这种非模态语音反过来又可以促进对T3的感知（Belotel-Grenié & Grenié，1994）。此外，语音质量线索并不是T3独有的。其中因为高F0，T1与紧张的语音相关，因为低F0，T4也与嘎裂声相关（Sundberg，1994）。语音质量的声学相关性（频谱线索）也会与 F0 共变（Kuang，2017）。语音质量可以在频谱中进行声学表征，使用倒谱峰突出度 (Cepstral Peak Prominence，CPP)：信号中的非周期性度量，以及低频和高频谐波的幅度差（H1-H2：前两个谐波之间的幅度差；H1-A1、H1-A2、H1-A3：基频和前三个共振峰之间的幅度差）。汉语母语者对频谱线索，如 H1-H2 ，表现出高度的敏感性 (Keating & Esposito, 2007; Kuang, 2017) 。频谱线索在音高感知中起着重要作用：操纵频谱线索可以显着改变对音高的感知（Kuang & Liberman，2018）。

由于F0和频谱线索在生产和感知中都密切相关，因此频谱线索本身在对比和识别音调方面具有相当的信息量。在没有F0线索的情况下，使用时间和频谱线索，母语者也能够相当准确地识别声调类别(Kong & Zeng, 2006; S. Liu & Samuel, 2004; Whalen & Xu, 1992)，突出了F0之外线索的重要作用。

目前的研究

尽管对汉语声调习得进行了数十年的研究，但仍有一些问题没有得到解决。第一，没有研究声调发展何时达到大人的水平。现有的产出研究都仅限于6岁以下的儿童，并表明该年龄的儿童仍然无法产生类似成人般的声调对比。其次，之前的研究都集中在F0的习得上，完全掌握类似成人的声调对比不仅涉及对主要线索（F0）的掌握，还包括对其他线索的掌握，例如语音质量。因此探索语音质量线索（频谱）在声调产出中的发展是很重要的。

3.研究方法 ¶

a.语料库 ¶

建立语料库，语料库由 2969 个SVO句子组成，这些句子是在五种焦点条件下（即狭义关注主语、动词或宾语，广义关注整个句子、对比关注动词）对 wh问题的回答或评论。来自四个年龄组的 46名汉语母语者，进行图片匹配游戏并产出目标句：4-5 岁，7-8 岁，10-11岁，成人控制组。一百六十个 SVO 句子嵌入在游戏中。实验中的160 个SVO句子是由4个双音节主语 NP （以xiao3 ’little’开头，第二个字四个声调各一个）、8个单音节动词（每个声调两个动词）和8个单音节宾语名词组成（每个声调两个名词）。160个句子分为两个列表，每个列表上的80个句子包括所有动宾声调组合和焦点条件。

4.数据分析 ¶

在分析中只使用了动词的音节。使用VoiceSauce在9个等距音段提取F0和频谱线索。去除前3个音段的数据以消除起始辅音的影响。分析中使用的线索是：STRAIGHT F0（Kawahara、Masuda-Katsuse & De Cheveigne，1999）、CPP、高低谐波的相对幅度差（H1*-H2*、H2*-H4*、H1*- A1*、H1*-A2*、H1*-A3*、H4*-2K*、2K*-5K*）。有F0误差的刺激（两个连续音段之间的F0幅度跳跃大于50Hz）被删除，共2622个刺激用于分析。所有提取的数据都标准化为0-1之间的数值。

所有年龄组的声调产出都使用以下线索建模：（i）只有F0，（ii）只有频谱线索，（iii）F0 和频谱线索。首先使用多维标度（Multidimensional scaling，MDS）计算声调的差异。MDS将多维且高度相关的声学空间转换为更具可解释性的低维空间。可以提供每个声调类别内的声学差异和类别间重叠的图像。此外，为了交叉验证MDS的结果，还使用机器学习分类算法进行自动声调分类，包括线性区别分析（Linear Discriminant Analysis，LDA）支持向量机（Support Vector Machine，SVM）和随机森林（Random Forest）。

5.结果 ¶

a.MDS结果 ¶

stress<0.12，表明2个维度足以实现数据的拟合。在所有年龄组中，MDS声调空间代表了第一个维度（x 轴）上的高低声调的区别，以及第二个维度（y轴）上升与下降轮廓的区别。

基于F0的MDS空间：即使是最小的年龄组（4-5岁）也使用F0线索实现了声调类别的适当分离，在4-5岁和7-8岁之间观察到声调分类有所改善。对于年龄较大的儿童（7-8 岁和 10-11 岁），他们的声调类别不像成年人那样紧密聚集，在缩放的F0空间中间隔最大。

基于频谱线索的MDS空间：表现出更显着的发展模式，其中声调类别的整体可分离性随着说话者年龄的增加而明显改善。仅使用频谱线索，在4-5 岁时，只有T3与其他声调明显不同。T2和T4的声调轮廓在频谱空间（参见F0空间）中高度重叠。7-8岁的儿童使用频谱线索区分声调方面表现出显着改善，声调类别之间的重叠较小。在年龄最大的儿童（10-11岁）的产出中，声调类别继续形成更紧密的集群，但仍不能像成人一样使用频谱线索区分声调。对于成年人来说，仅凭频谱线索就足以区分四种声调。

对于成人，同时使用F0和频谱线索的MDS空间与只使用频谱线索的MDS空间相似；同时使用F0和光谱线索并没有导致声调分类的改善。相比之下，对于儿童来说，同时使用频谱和F0线索比只使用频谱线索实现了更好的声调分类，表明F0和频谱线索在声调分类中的作用对于儿童和成人的产出是不同的。

总体而言，结果说明了F0线索和频谱线索发展的差异。 F0线索在4-5岁和7-8岁之间表现出改善，在7-8岁实现语音空间中声调类别的最大分散，甚至超过成人水平。与年龄较大的儿童相比，成人的产出虽然在声调类别间的F0差异较少，但表现出最小的类别内差异。频谱线索在4-5岁和7-8岁急剧发展，从7-8岁开始逐渐发展，尤其是T1、T2和T4声调。值得注意的是，即使是年龄最大的孩子也无法使用频谱线索实现类似成人的对比。因此，F0线索和频谱线索在7-8岁时的发展曲线不同，此时F0线索已掌握，但频谱线索尚未完全掌握。

b.机器学习分类 ¶

三种算法都产生了一致的结果。只使用F0，对年龄最大的儿童（10-11岁）的产出数据实现了最高的分类准确率。事实上，只使用F0线索时，成人组的分类准确性低于10-11岁组，甚至 7-8 岁组，因此年龄较大的儿童使用F0线索进行不同声调对比，甚至超越成人的水平。

只使用频谱线索，成人数据的分类准确度最高（78%，SVM）。结果显示随年龄增长分类准确率增加，从4-5岁的54%到7-8岁的71%、10-11岁的74% 和成人的78% (SVM) 。此外，F0线索和频谱线索的发展曲线的分裂也很明显：在4-5岁和7-8岁之间，任一线索的准确度都有很大的提高，但从7-8岁开始，只使用F0线索对声调进行分类达到或超过成人的准确度，只使用频谱线索的分类准确度继续增加直到成年。

在三个线索中，同时使用 F0和频谱线索在每个年龄组内实现了最佳准确度，这表明在所有年龄段，频谱线索是声调分类的额外线索。特别是，成人组在同时使用F0和频谱线索时，实现了83%的最佳准确率 (SVM)。

6.讨论 ¶

本研究调查了F0和频谱线索在区分儿童和成人的声调产出中的作用。结果证实即使在儿童习得基本的F0对比之后，通过整合频谱线索，其声调产出的区分度继续提高。7-8岁儿童声调产出中使用F0 线索达到并超过成人。然而，与F0线索不同，即使在10 -11岁时，儿童也无法像成年人一样使用频谱线索。成年人在声调产出中减少了F0差异，但有足够可靠的频谱线索，可以清楚地区分四种声调类别。F0和频谱线索发展曲线的这种差异表明，即使在掌握了初级线索之后，次级线索仍可能继续发展。