声调语言中声调、元音和辅音的独立而整合的语音感知加工:来自MMN的证据



文献:Yu, K., Chen, Y., Wang, M., Wang, R., & Li, L. (2022). Distinct but integrated processing of lexical tones, vowels, and consonants in tonal language speech perception: Evidence from mismatch negativity. Journal of Neurolinguistics, 61, 101039. https://doi.org/10.1016/j.jneuroling.2021.101039

论文原文

1. 研究背景

声调、元音和辅音的加工在声调语言的语音感知中起着重要的作用。然而,它们的加工程度和时间进程是相似的还是不同的,它们的加工是独立的还是整合的,之前有很多相关的研究,但结果并不统一。

1.1 加工相似还是不相似

Schirmer、Tang、Penney、Gunter和Chen (2005)发现,粤语母语者在粤语句子的最后几个词的粤语词声调和韵脚在潜伏期和振幅上有相似的早期额叶负性和晚期中央顶叶正性表现。在事件相关电位(ERP)研究中,ERP的振幅反映了认知加工的程度,ERP的潜伏期反映了认知加工的时间进程(Duncan et al .,2009)。Lee等人(2012)发现,母语为汉语的学龄前儿童对汉语声调和元音的加工产生了相似的ERP反应。Choi,Tong,Gu,Tong和Wong (2017)的研究表明,粤语母语者对粤语词声调和元音变化表现出相似的MMN反应。以上这些研究结果表明,声调和元音的加工是相似的。

但是,Hu等人(2012年)EEG的研究表明当汉语习语末尾词的元音和声调发生变化时,汉语母语者对元音和声调的变化显示出不同的ERP反应,声调和元音在加工程度和时间进程上都有差异。

在Lee等人(2012)的研究中,汉语音节中更大的声调或元音变化引起了与成人相似的MMN,而较小的声调或元音变化引起了P-MMR(positive mismatch response ),但是较大和较小的辅音变化都会引起P-MMR。因此,这项研究表明辅音的加工可能与声调和元音不同。Tong等人(2014年)在母语为粤语的儿童中发现对辅音显示出P-MMRs,对声调显示MMN,因此提出声调和辅音处理具有差异。Luo等人(2006)对成年人汉语的研究表明,左半球辅音的MMN振幅大于右半球,而左半球声调的振幅小于右半球,表明声调和辅音的加工在广度和半球侧化方面存在差异。

1.2 独立加工还是整体加工

关于辅音、元音与声调之间的加工是独立进行的还是整体进行的,目前提出了多种不同的假设。最早提出的TRACE模型(Mcclelland & Elman, 1986)认为,辅音和元音的加工相互独立。后来Ye和Connine (1999)首先在TRACE模型中补充了声调层次,并也认为声调、元音和辅音的加工是相互独立的。

但是Tong, McBride, and Burnham (2014)提出,音素层次包括声调、元音和辅音,因此它们三者的加工是整合的。Choi等人(2017)也将声调与元音视为音素层次,并支持声调和元音的加工是整合的。最近的研究(Gao et al., 2019)提出,元音和辅音组成无声调音节并整合加工,而辅音和元音的加工是独立于声调加工的。从以上的研究中可以看出声调、元音和辅音的加工是独立的还是整合的仍有争议。

1.3 本研究

关于声调语言的口语加工机制的研究证据有很大争议,导致这些结果不一致的原因有:研究所用的语音材料不同,之前的研究中所用到的材料有句子、习语、音节、声调与元音的组合;语境也会影响声调与音素的加工。

为了探索以往研究和模型中尚未解决的问题,本研究旨在考察声调语言言音感知过程中声调、元音和辅音的加工过程,并从神经生理学角度为声调语言言语识别的机制提供新的证据。本研究探索了粤语母语者的声调、元音和辅音的加工的特征。为了控制语义对声调和元音/辅音加工的影响,本实验通过控制词性(真词vs假词)进行对照,这样也能揭示词汇语义对元音、辅音和声调加工的影响。

MMN通常由oddball范式中的异常刺激引发,它一般在刺激开始后大约150-250 ms达到高峰,主要分布在头皮的额中央区,能够反映前注意阶段对言语刺激的自动加工。ERP的振幅和峰值潜伏期可以反映认知加工的程度和时间进程(Duncan et al .,2009),因此本实验预期通过MMN振幅和峰值潜伏期来探究粤语声调、元音和辅音加工的程度和时间进程。 此外本研究还通过MMN additivity方法来探究声调与元音,声调与辅音,元音与辅音之间的整合加工情况,具体方法是如果两个一维偏差(如“音调”-MMN +“元音”-MMN)的MMN振幅之和大于一个二维偏差(如“音调+元音”-MMN)的MMN振幅之和,则表示对两个维度的处理是整合的。如果两个一维偏差(如“音调”-MMN +“元音”-MMN)的MMN振幅之和小于或等于一个二维偏差(如“音调+元音”-MMN)的MMN振幅,则这两个维度的处理是相互独立的。

综上所述,本研究中进行了两个ERP实验。在实验1中,采用被动oddball范式和MMN探究粤语母语者是如何处理真粤语词和假粤语词中的level tones、元音和辅音的。在实验2中,探究粤语母语者如何处理真粤语词和假粤语词中的contour tones、元音和辅音。 粤语的声调系统由六个声调组成(Matthews & Yip, 2011)。根据声调特征,这六种音调可分为level tones(1声、3声、6声)和contour tones(2声、4声、5声)两种类型。

图1

2. 实验一

2.1 参与者

24名华南师范大学粤语母语者本科生,其中男性10名,平均年龄20岁,年龄范围18-25岁。所有参与者都有正常的听力以及矫正后实力水平,右利手。

2.2 实验材料

实验采用8个真粤语词(/si1/ (means “poem”), /se1/(means “some”), /fu1/(means “skin”), /ji1/(means “doctor”), /si6/(means “thing”), /se6/(means “shoot”),/fu6/(means “pay”), /ji6/(means “two”))和8个假粤语词(/bi1/, /bu1/, /di1/, /du1/, /bi6/, /bu6/, /di6/, /du6/)。在ERP实验开始之前,本研究招募了16名没有参加ERP实验的粤语母语者来确定这些词是否有相应的广东话含义。

2.3 实验程序

此研究采用被动的oddball实验范式,实验共有14个conditions,每个condition由一种标准刺激和一种偏差刺激组成(下图2)。共有28blocks,每个condition进行两次。每个block包括192个标准刺激和40个偏差刺激,标准刺激和偏差刺激均随机呈现。每个刺激时间为400 ms,刺激间期(ISI) 800 ms。

图2

2.4 数据分析与结果

MMN是用标准刺激的ERP减去偏差刺激的ERP得到的,并对每一种情况下所选9个电极的平均MMN峰潜伏期和振幅进行统计分析。标准刺激和偏差刺激的平均波形如下图3所示

图3

T:真词下的声调偏差;V:真词下的元音偏差;C:真词下的辅音偏差;PT:假词下的声调偏差;PV:假词下的元音偏差;PC:假词下的辅音偏差;TV:真词声调+元音的偏差;TC:真词声调+辅音的偏差;VC:真词元音+辅音的偏差;PTV:假词声调+元音的偏差;PTC:假词声调+辅音的偏差;假词元音+辅音的偏差 每一种偏差刺激引起的MMN波形如图4所示。

图4

下图5不同类型的偏差刺激的平均MMN振幅和峰值潜伏期之间的对比。

图5

分别为实验1和实验2的平均MMN振幅和峰值潜伏期,以及实验1和实验2不同条件下原始和added MMN振幅。TV、TC、VC的原始MMN振幅分别为声调+元音偏差、声调+辅音偏差、元音+辅音偏差引起的MMN振幅。TV、TC、VC 的声调类型分别对应声调和元音偏差、声调和辅音偏差、元音和辅音偏差所引起的MMN振幅之和。

实验一真词中辅音偏差刺激的MMN振幅显著小于音调偏差(p = 0.007)和元音偏差(p = 0.03),音调偏差的MMN振幅与元音偏差的MMN振幅无显著差异(p = 0.99);在假词中辅音加工程度明显升高。表明辅音加工程度小于声调与元音,并且辅音加工程度受词义的影响;而声调与元音的加工程度相似。

实验一真词中辅音潜伏期小于元音和声调,而声调与元音之间的潜伏期无明显差异,在假词中声调与元音的潜伏期明显缩短,而辅音潜伏期无明显变化。表明声调与元音的加工时间进程相似,且词义对声调和元音的加工时间进程都有相似的影响。

真词和假词中的added MMN振幅都大于TV、TC、VC的原始MMN振幅,表明声调和元音,声调和辅音,元音和辅音之间都是整合加工的。

2.5 讨论

实验结果发现level tones与元音的MMN振幅相似且都大于辅音;辅音的MMN峰值潜伏期明显小于真词中的level tones和元音,而明显大于假词中的level tones和元音。level tones和元音之间的MMN潜伏期在真词和假词中都是相似的。此结果表明level tones与元音信息加工的程度和时间进程相似。 词性影响了level tones和元音(level tones/元音:真词>假词)的MMN峰值潜伏期,而对辅音无影响。这表明,level tones和元音加工的时间进程受到真词和假词所带来的语义/语音信息的影响。语义/语音信息对level tones和元音加工的相似影响也表明了level tones和元音加工是相似的。 在原始和 added MMN 振幅对比中,level tones与元音、level tones与辅音、元音与辅音的dded MMN 振幅均显著大于原始MMN振幅。表明对level tones与元音、level tones与辅音、元音与辅音的加工是整合的。

3. 实验二

3.1 参与者

另外24名华南师范大学粤语母语者本科生,其中男性11名,平均年龄20岁,年龄范围18-24岁。所有参与者都有正常的听力以及矫正后实力水平,右利手。

3.2 实验材料

实验采用了另外8个真粤语词(/si2/ (means “history”), /se2/(means “write”), /fu2/(means “tiger”), /ji2/(means “chair”), /si4/(means “time”), /se4/(means “snake”), /fu4/(means “symbol”), /ji4/(means “sun”))和假粤语词(/bi2/, /bu2/, /di2/, /du2/, /bi4/, /bu4/, /di4/, /du4/) 除了音调类型改为contour tone外,其他实验程序都与实验一致。

3.3 结果

结果显示无论是真词还是假词contour tone、元音和辅音的MMN振幅没有差异,组间MMN峰值潜伏期也无显著差异。真词中contour tone、元音和辅音的MMN峰值潜伏期比假词长。这些结果显示contour tone、元音和辅音的加工在程度和时间进程上是相似的,词性质会影响加工的时间进程。 在整合加工方面,实验二中所得结果与实验一一致,即contour tone和元音、轮廓音和辅音、元音和辅音都是整合加工的。

4. 总结

通过实验1和实验2结果的比较,发现声调的音调类型(level tones与contour tone)引起了声调与辅音的加工程度的差异,level tones的加工程度大于辅音,而contour tone的加工程度与辅音相近。 总之,MMN振幅和潜伏期表明,声调和元音的加工程度和时间进程相似。声调与辅音的加工程度和时间进程都不同。元音和辅音加工程度相似,但加工时间进程不同。声调类型(level tones 与contour tone)影响语音加工的程度,而语音加工进程则受词汇性质(真词vs.假词)和声调类型交互影响。MMN additivity分析进一步表明,无论词的性质与声调的类型,声调和元音、声调和辅音、元音和辅音的加工都是整合的。因此,在声调语言的语音感知中,对声调、元音和辅音信息的加工是独立但综合的。这一研究结果为声调语言口语识别机制提供了神经生理学依据。

5. 局限性

本研究只探讨了声调种类对语音加工的影响而没有进一步探讨音素的声学特征对语音加工的影响,并且实验任务与语境是如何影响语音加工仍有待进一步的研究。