文献:Sorensen, T., Zane, E., Feng, T., Narayanan, S., & Grossman, R. (2019). Cross-Modal coordination of Face-Directed gaze and emotional speech production in school-aged children and adolescents with ASD. Scientific Reports, 9(1). https://doi.org/10.1038/s41598-019-54587-z

1.背景介绍 ¶

研究表明，ASD的言语表达比NT人群更尴尬或“奇怪”。已有的研究发现，情绪效价对NT儿童的面部运动具有很强的预测能力，但ASD儿童不是这样。ASD儿童还表现出不同面部区域运动的非典型时机（timing）和同步性（synchrony），减少了上面部运动的强度，减少了面部运动的多样性。关于面部注视的研究结果参差不齐，有些说ASD对面部的凝视时间较少，有些则认为他们对面部的注视与NT儿童没有区别。除了在面部表情、言语表达和面部注视方面表现出不同的模式外，ASD还表现出难以跨多种模态整合信息的困难，尤其是整合面部和声音信息。还有一些证据表明，ASD在表达任务中有跨模态整合困难，例如，当ASD讲故事时，其手势与语音的协调性不如NT个体。今为止，尚无定量行为研究来研究ASD在语音产生过程中如何协调语音和面部表情，以及是否存在非典型的对面部的注视与语音和面部表情质量或协调性的任何差异有关。

2.目的和假设 ¶

分析言语产生和面部运动之间的动态关系；对面部的注视如何调节NT和自闭症儿童的表达方式。假设，ASD儿童将比NT儿童表现出更弱的面部表情和语音之间的跨模态协调，特别是对于需要更强的面部运动和声音表达能力的情感句子；对刺激人脸的注视增加与强跨模态协调的NT模式相关。

3方法和过程 ¶

研究者提出一个动态模仿任务。使用格兰杰因果关系分析（Granger causality analysis）来量化语音产生和面部运动之间的跨模态协调。格兰杰因果关系（Granger causality）是对信号x预测信号y的程度的度量。如果面部运动显著地引起了格兰杰语音信号，则这表明语音产生和面部运动之间的强烈跨模态协调，表明语音产生与面部运动同步；另一方面，较弱的格兰杰因果关系则表明跨模态协调能力较弱，这表明语音产生与面部运动不同步。

3.1被试： ¶

16名ASD儿童和19名NT儿童。

3.2过程 ¶

在电脑屏幕上展示了16个青少年演员的视频。在每一段视频中，演员在第一句中以中性的情绪说话，在第二句中以特定的情绪说话（例如，中性的句子“我把垃圾拿出来”，然后是厌恶的句子“恶心的东西在我身上滴了下来”）。在情感句子中，刺激演员使用声音和面部表情来传达情绪。要求被试确定视频中演员的情绪。为了确保用于这项研究的刺激在情绪强调的位置上有所不同，因此重音音节/单词要么被定位在短语-最初，短语-中间，要么被定位在短语-最后。指示：“现在，您将观看一些简短的视频，人们在说句子。您的工作将是尽可能地重复该句子。我们希望您在句子描述的情况下想象自己，然后重复表达与视频中看到的人相同的情绪的句子。轮到您说句子时，请抬头看着这台摄像机。

3.3眼动追踪： ¶

使用SMI数据分析软件来识别上脸（包括眼睛，鼻子，上脸颊和前额）和下脸（包括嘴，下巴和下脸颊）的兴趣区域。x轴表示左右位置，y轴表示上下位置，z轴表示前后位置。

4.结果 ¶

4.1诊断对跨模态协调的影响： ¶

交互作用如下：诊断×句子；年龄×诊断；年龄×句子；年龄×诊断×句子。诊断对跨模态协调没有显著影响，但句子影响意义重大，诊断与句子之间的相互作用也很显著。与句子的主要效应相一致，发现中性和情感句子之间的平均跨模态协调显著不同，情感句子比中性句子表现出更强的跨模态协调。与诊断×句子交互作用一致，发现NT儿童在情感句子中的跨模态协调性明显强于ASD儿童，但在中性句子中，没有发现组间差异。这些结果表明，情感句子比中性句子具有更强的跨模态协调能力，并且对于NT儿童而言，情感句子与中性句子之间的差异比ASD儿童更大。NT儿童产出的情感句子具有较强的跨模态协调能力，而产出的中性句子则具有较弱的跨模态协调能力。然而，ASD儿童对中性和情感性句子产生类似水平的跨模态协调。使用运动捕获标记方差（即面部表情强度的度量）和音频特征方差（即语音产生强度的度量）来调查总体面部表情中基于诊断的潜在差异。在运动捕捉标记差异或音频特征差异中，ASD和NT组之间的强度没有显著差异。这表明ASD儿童以相似的强度产生面部表情和言语，但是与NT同伴相比，其情感表达的跨模态协调水平较低。

4.2年龄与诊断和句子的交互作用： ¶

协变量年龄及其与诊断的相互作用均不显著。年龄与句子之间的相互作用非常显著，这表明与诊断无关，年龄较小的孩子比年龄较大的孩子在情感句子中的跨模式协调更强。年龄，诊断和句子的三方面交互作用同样很显著。发现，NT中性和NT情感性组件之间的年龄差异显著，与NT情感性组件相比，年龄在NT中性组件中的影响更大。这表明，与较年轻的NT儿童相比，较大的NT儿童在情感句子中表现出更强的跨模态协调能力。

4.3面对面注视： ¶

诊断的效应非常显著，表明NT儿童的平均注视持续时间比ASD儿童的平均注视持续时间长得多。句子的主要作用是显著的，表明情感句子的平均注视时间明显长于中性句。

4.4面部注视跨模态协调的效果： ¶

相互作用如下：诊断×uf（上脸净停留时间）；诊断×lf（下脸净停留时间）; 诊断×uf×年龄；和诊断×lf×年龄。协变量uf和lf的效果非常显著。NT被试与ASD被试在协变量uf和lf的斜率方面有所不同。ASD儿童对上脸和下脸注视斜率为负（negative slope）。NT儿童对上脸和下脸的注视斜率为正（positive slope）。这些结果表明，面部定向注视与NT儿童的强跨模态协调有关，但与ASD儿童的弱跨模态协调有关。对于NT来说，当花更多的时间看脸时，面部表情上的语音产生的跨模态协调就会更大。对于ASD来说，随着面部定向注视的增加，跨模态协调能力变弱。

5.总结 ¶

在动态语音模拟任务中，ASD儿童产生的面部和声音表达没有NT同龄人的面部和声音表达协调，特别是在情感语言方面。当NT儿童产生情感言语时，面部运动的动态轮廓与音调等动态语言特征强烈协调。相比之下，ASD组的弱因果关系表明，他们对面部和声音表现力的协调是相对异步的。ASD儿童在要求高情绪表现力的任务中表现出更大的跨模态异步。这些发现表明，在情绪性语音产生过程中，ASD中的社交沟通困难可能涉及面部和声音表达的跨模态协调障碍。