1.参考文献 ¶

Garg, S., Hamarneh, G., Jongman, A., Sereno, J., & Wang, Y. (2019). Computer-vision analysis reveals facial movements made during Mandarin tone production align with pitch trajectories. Speech Communication, 113(), 47-62. http://doi.org/10.1016/j.specom.2019.08.003

2.研究背景 ¶

这项研究旨在确定声调的视觉提示。大量研究表明，从说话者的面部动作，尤其是嘴唇运动（张开，拢圆）提供的视觉提示，可以促进音段感知。另一方面，关于声调如何从视觉信息中受益的研究尚未定论，大概是因为韵律的产出不取决于声道结构，因此在视觉上不那么显着。有证据表明，头部、下颌、眉毛、颈部和嘴唇的运动可能在声调产出和感知中传达视觉信息。但是，尚不清楚这些运动在多大程度上提供了有意义的语言线索来区别声调，哪种方法可以有效地识别和量化这些视觉上的差异。本研究使用最先进的计算机视觉和图像加工技术。使用基于距离和时间的方法来测量这些运动的方式和程度，并对它们表征每个声调的程度进行排名。

在声调感知中使用的声学线索不仅包括静态线索，例如F0高度和轮廓方向，F0转折点和时间，以及总持续时间，还包括动态线索：F0斜率和轮廓形状，例如F0下降和上升的速度和加速度。这些声调特征可以清楚地表现距离、方向、持续时间和速度的时空变化。

研究表明，在F0变化越大的情况下，头部运动的频率更高且动作更大。但这些研究中的数据并未对运动的方向和幅度进行量化，因此尚不清楚这些头部运动在多大程度上对应于F0高度和轮廓方向的变化。

观察到眉毛运动也与构音有关，尽管没有关于声调的研究。但Huron等人（2013年）的确报告了眉毛垂直运动与F0高度之间的因果关系。通过要求说话者在阅读过程中将眉毛升高或降低到不同程度，作者发现较高的眉毛位置与较高的声调有关。本研究将眉毛垂直运动包括在内，因为其与声调高度和方向可能相关。

已有证据表明嘴唇的运动可能在时间和空间上与声调变化保持一致。研究测试了汉语声调产出中嘴唇运动的相关性。只显示说话者下半张脸，感知者被迫专注于嘴唇和下巴的构音运动。结果表明，与只有音频的情况相比，获得下巴和嘴唇的视觉信息时，声调识别水平显着提高，这提示了嘴唇和下巴运动对声调感知的促进作用。然而，仍不清楚每种声调是哪种唇部运动表征的，以及它们如何与声调高度和轮廓的变化相对应。

综上所述，头部，眉毛和嘴唇的特定运动与声调相关，当前的研究检查了声调产出的视觉提示，进行系统地量化以确定这些运动的大小、方向和方式，以及它们如何表征每个声调。

为了克服传统方法局限性，此项研究开发了一种使用计算机视觉和图像加工技术的方法。该方法已成功用于确定英语元音产出的面部提示。该方法分别记录和提取了描述面部运动的特征。这种无标记的方法可以使说话者自然说话，可以追踪和分析说话者面部的任何区域，并且可以将同一说话者的面部直接用于感知研究。具体来说，从视频中提取了一组距离、相对时间和运动特征，例如头部、眉毛和嘴唇的关键点的速度和加速度，然后进行分析。这种方法可以确定汉语中每个声调的独特特征。

研究目的：1.在汉语声调中使用哪些特定的视觉提示，可以使一个声调与其他声调区分开。2.根据幅度、方向、相对时间，来系统地量化声调产出中的视觉提示。

3.研究方法 ¶

被试为20名汉语母语者（12位女性）。居住在加拿大不到五年。在三个模块中记录了每个被试的100个录音。刺激使用了四个声调的/e/。/i/和/u/作为填充词。要求被试读出屏幕上呈现的每个单音节词，首先是平静的读法，然后是演讲风格。目标刺激的平均持续时间为580毫秒。

4.分析 ¶

分析只包括被正确产出预期声调的视频。不正确的发音被排除在进一步分析之外。

全自动视频分析：（1）视频分割；（2）在面部上定位关键点，包括眉毛的内侧末端，鼻尖和上唇线；（3）追踪关键点，记录关键点的空间坐标；（4）从追踪的关键点中提取特征。

具体步骤：检查了三个ROI的运动：头部，眉毛（左侧）和嘴唇。首先，在每个面部上定位一个粗糙的边界框。使用特定部位的检测器来获得ROI的更好定位。提取每个ROI的轮廓，进一步提取每个轮廓上的1-2个关键点进行追踪。关键点如图1所示。

一旦确定了上述关键点，便使用Kanade-Lucas-Tomasi（KLT）特征追踪算法在其余视频帧数上对其进行追踪，从而获得每个关键点的运动轨迹。随后，从眉毛和嘴唇关键点的位移中减去头部位移，也就是把头的运动从眉毛和嘴唇中移除。

根据运动轨迹计算特征，以进行量化四个关键点的运动动态。这些特征可以大致分为三类：（1）基于距离的运动，关键点从初始静止位置到目标标记位置的最小和最大总位移；（2）基于时间的运动，关键点的位移达到最大或最小距离所花费的时间；（3）运动，关键点在特定时间点上的速度和加速度（速度达到最大时）。

特征值经过标准化，以统一说话者的头部大小以及说话者和摄像头的距离。注意特征只在垂直方向上进行测量，不包括水平方向上的任何运动。因为发现音高只与垂直向上或向下的关节运动相关。

特征经过两步分析，第1步是特征重要性分析，确定哪些特征最能代表每个声调。在第2步进行了事后分析，以每个声调为基础检查各个特征。

5.结果 ¶

a.1声 ¶

首先检查每个声调分类特征的重要性顺序。对于1声，包括10个重要特征，大多数重要特征是头部和眉毛运动的特征。按照重要性的顺序：（i）最大抬头速度；（ii）眉毛下降距离最大的相对时间；（iii）嘴唇张开速度最大时的相对时间；（iv）最大的张开嘴的距离；（v）最大降低头的距离；（vi）头下降距离最大的相对时间：（vii）降低眉毛速度最大的相对时间；（viii）提高眉毛速度最大的相对时间；（ix）最大的降低眉毛速度（x）头部抬起速度最大时的相对时间。

接下来检查这10个特征的区分度。使用t检验测试了均值差异。与其他声调相比，1声产出时的头部和眉毛移动最少。具体而言，1声的最大抬头速度，低头距离和降低眉毛的速度最小，这反映了1声的构音需要较小的移动或较慢的速度。

b.2声 ¶

对于2声，只有5个重要特征，包括（i）最大眉毛降低距离；（ii）最大抬眉距离；（iii）最大头部下降距离；（iv）抬头距离最大的相对时间；（v）抬眉速度最大的相对时间。没有特征来自嘴唇区域。

使用t检验检查这5个特征的区分度。与其他声调相比，2声达到最大抬头距离的时间最长。这表明最大特征出现在声调的后半部分。此外，在运动的后期观察到更大的抬眉高度，尽管t检验没有统计学意义。后面较大的上升运动对应于2声的上升轮廓。

c.3声 ¶

对于3声，发现许多特征对于3声分类很重要，包括（i）最大眉毛下降距离（ii）降眉距离最大的相对时间；（iii）头部下降距离最大的相对时间；（iv）最大的抬眉速度；（v）降低头部的最大距离；（vi）提眉速度最大的相对时间；（vii）抬头速度最大时的相对时间; （viii）头部下降速度最大时的相对时间；（ix）最大的眉毛降低速度；（x）降低眉毛速度最大时的相对时间；（xi）最大抬眉距离；（xii）最大抬头距离；（xiii）平均头部移动距离；（xiv）平均眼眉距离；（xv）嘴唇合拢速度最大时的相对时间。从该图可以大致看出，眉毛和头部的特征具有很高的重要性。相比之下，只有1个重要特征与嘴唇有关。

3声在抬头、低头、降低眉毛和抬眉上的移动距离最大。此外，该声调的抬眉和降眉的速度也最大。低头距离和眉毛下降距离达到最大的平均时间较短，这表明上述事件发生在声调产出的早期，而关键点向下移动的速度峰值发生在声调产出的末期。这些模式与3声的降升特征一致。

d.4声 ¶

对于4声，重要特征是：（i）低头距离最大时的相对时间;（ii）抬头速度最大时的相对时间；（iii）总头部运动距离；（iv）嘴唇张开速度最大时的相对时间；（v）降眉距离最大的相对时间；（vi）嘴唇张开距离最大的相对时间；（vii）嘴唇闭合速度最大时的相对时间；（viii）嘴唇闭合距离最大时的相对时间。 4声最重要的特征是低头的相对时间。

首先，4声的嘴唇闭合速度达到最大值的相对时间最大。其次，头部关键点达到最大值的相对时间最长。这表明低头运动发生在后半部分。第三，抬头速度达到最大的相对时间第二小（3声最小）。这五个重要特征中的三个与嘴唇区域有关，而其余两个与头部有关。因此，这是除了1声以外，唯一与唇有关的声调。总体而言，产出4声时，下降动作的相对时间是最大的。

6.讨论 ¶

与其他声调相比，1声低头的距离最小，并且抬头和降低眉毛的速度最小。这些相对较小的运动可以通过其F0的较小音高变化来解释。相对于其他声调，2声达到最大抬头距离的时间最长。此外，在运动的后期观察到眉毛抬高的趋势。这些运动与声调的上升F0轮廓一致。就F0而言，3声是变化最大的声调。

由于F0变化越大，头部运动越大，这与3声的头部和眉毛较大运动是一致的。与嘴唇有关的特征似乎在区分4声和其他声调方面起着重要的作用。产出4声时，头部达到最大距离要花更长的时间，这表明降低头部发生在声调产出的后期。由于4声是降调，因此降低头部与F0轮廓一致。