1.参考文献 ¶

Shen, J., Deutsch, D., & Rayner, K. (2013). On-line perception of Mandarin Tones 2 and 3: Evidence from eye movements. The Journal of the Acoustical Society of America, 133(5), 3016-. http://doi.org/10.1121/1.4795775

论文原文

2.研究背景 ¶

母语者会使用多种音高提示来识别声调，主要是整体音高、音高变化方向、终点音高和音高变化斜率。研究了三个主要提示，即总体音高，临界点音高和音高变化斜率。

A.整体音高

通过长期接触语言社区中的声调来获得音高的心理表征。这帮助声调语言者利用整体音高作为声调感知的提示。整体音高会影响单音节的声调判断。在双音节中，一个音节的平均和起始F0会影响另一个音节的声调判断。尽管所有研究都表明总体音高是声调感知的关键，但其可能由多种提示形成，例如音节的平均F0，极端音高点的F0范围，或整个音高轮廓。因此，需要对其他音高提示进行进一步研究。

B.终点和中点音高

即使只有一小部分可用的声调信息，汉语母语者也能识别出大部分声调。使用四种类型的音节研究了母语者和非母语者的声调感知：完整，中心（没有前六个和后八个音高周期），无中心（只有前六个和后八个音高周期）和起点（只有前六个音高周期）。总体而言，母语者的表现优于非母语者，尤其是在无中心音节方面，表明母语者将中点和终点音高用作声调识别的感知线索。

音高转折的时间点和起始点与转折点之间的音高差异都会影响声调感知。当刺激的转折点较早出现、起始点与转折点的音高差异较小时，更有可能将其识别为“2声”。而3声则需要转折点较迟出现、转折点相比于起始点F0有较大下降。

以上研究都集中在2和3声的起始点和转折点之间的音高信息上，很少研究声调后半部分的重要性。研究结果表明，对于2声，转折点和结束点之间的音段包含的信息对于识别至关重要，而3声则不存在这种现象。此外，对于3声，音节的前半部分比后半部分对识别更为重要。

C.音高变化的斜率跨类别边界的声调被视为不同声调，而边界内的声调则被视为相同声调。例如刺激有相同的终点音高，但斜率不同，母语者将音高变化的斜率大于0.047Hz/ms的识别为高升调，而将斜率较小的识别为高平调。

在声调感知的研究中，经常使用1和2声来作为识别任务中的刺激。但是，尚未对2和3声的音高转折点和终点之间的上升斜率进行任何调查，以确定音高变化的较大斜率是否可以作为2声判断的提示，而较小的斜率可作为3声的提示。

存在的问题：提示通常是相关的（关键点音高会随音高斜率而变化），因此只进行声调判断很难弄清几种不同因素的影响。此外，母语者在感知词汇声调时如何利用这些音高提示？这些音高提示是否以递增方式使用？还是以整体的方式进行加工，在整个音节出现后做出判断？仅记录离线反应的传统范式无法提供此问题的答案。

视觉世界范式是一个很好的选择。在呈现声音刺激之前，被试会先看一组视觉对象，然后在播放声音刺激时，对这些对象进行扫视和注视。符合听觉输入的对象会有较大比例的注视时间（proportion of fixations，POF）。因为对视觉对象的注视被认为是与单词相关的神经活动的反映，可用于得出有关感知和理解的推论。很少有研究使用该范式检查词汇声调的在线加工。

研究目的：1.研究母语者如何利用两种声学提示（关键点音高和音高斜率）来区分2和3声。通过操纵音节开头、转折点、关键点的F0，确定母语者在音节内特定时间点对声学信息的反应。2.研究瞬时音高变化对声调在线感知的影响，用眼动追踪范式揭示音高信息的动态加工。

实验设计：终点音高有四个水平：Original high, ambiguous high, original low, and ambiguous low。这四个条件分别称为高2声条件（原始的高终点音高），低2声条件（模糊的高终点音高），高3声条件（模糊的低终点音高）和低3声条件（原始的低终点音高）。视觉世界范式通常使用图片作为视觉刺激，实验1使用图片。汉字的书写形式与词汇声调不对应，因此汉字可以用作视觉世界范式中的视觉刺激。实验2使用汉字。

3.研究方法 ¶

A.实验1 ¶

a.被试 ¶

24位汉语母语者，平均年龄为26.8（SD=4.1）。没有听力或言语障碍，视力正常或矫正。三名被试由于眨眼过多（超过30％的试验），其数据被排除在分析之外。

b.刺激和设计 ¶

使用录音机录八个音节，这些音节为2和3声。有音高信息的元音部分不迟于30毫秒出现。删除了与辅音部分的眼动数据，使用“声调开始”（toneonset）来指音节元音部分的开始。所有的音节都以元音或鼻辅音结尾。

使用Praat软件，将起点、终点和转折点F0设置为预定值。为了保持语音的自然性，估计了音节内的其他F0值，并将持续时间标准化为500ms（音高转折点为200ms）。由六位母语者进行识别，以确保可以被识别为2声和3声。

在实验中，每个语音标记都出现了两次。为了防止被试对刺激的预期，创建了相同数量的填充试验。视觉刺激是与这些音节相对应物体的黑色线条画（200×200像素），以黑线和灰色背景呈现。

c.程序 ¶

从两个训练试验开始，使被试熟悉图片的名称。在正式试验之前，先进行10次练习试验。每个试验均以校正程序开始。然后，一个小黑匣子出现在屏幕中央。要求被试单击该框以开始试验。单击该框后，在屏幕的四个象限的中心将显示四张图片。在每次试验中，四张图片分别对应于2声、3声对象，还有一个1声和4声对象。2声和3声对象的音节相同。这些图片在显示器上的位置是随机的。在显示图片的同时播放声音刺激，包括700 ms的提示语句“ Now click on ”。要求被试在没有时间限制的情况下做出最佳决策。

d.结果 ¶

1.声调识别数据

对声调识别的数据分析表明，在音节结束时，被试的正确反应率为84.7％。四个条件下正确反应率分别为99.7％（在低3声条件下选择3声）；98.6％（在高3声条件下选择3声）; 67.1％（在低2声条件下选择2声）和74.2％（在高2声条件下选择2声）。与目标词音段相同但声调不同的称为“竞争词”；1声和4声对象称为“干扰项”。

在两个低终点音高条件下，被试选择3声对象的频率要高于2声，但在两个高终点音高条件下，选择2声对象的频率高于3声对象。这些差异都是显着的[ps<0.01]，这表明终点音高和上升斜率会影响声调识别。此外，两种声调都在原始条件下的选择频率更高。这一发现表明，母语者在进行声调判断时可以利用一个半音的声调提示。

2.时间窗口分析

排除没有选择目标、播放语音标记期间出现眨眼的试验。通过将4个对象的注视次数除以总次数，得出POF。然后将POF反映到被试和对象上，分别在四个条件下创建4个注视轨迹图。

编程并执行扫视运动大约需要150-200毫秒，将POF数据分为四个150毫秒的时间窗口：301-450毫秒； 451-600毫秒；601-750毫秒；751-900毫秒。从声调开始起，第一个窗口为301-450毫秒，反映从声调开始到音高转折点的影响。最后一个窗口为751-900ms，如果终点音高信息可以用作识别声调的提示，那么在最后一个窗口开始前，注视更可能位于目标上。

对四个时间窗口中的四个注视位置（目标、竞争和干扰）的POF进行ANOVA分析。注视位置和时间窗口的主效应是显着的。

对于低3声条件，在四个时间窗口中，目标词（3声）的POF均显着高于竞争者（2声）。

在高3声条件下，从第2个时间窗口开始，对目标词的注视显著超过了竞争者。

在低2声条件下，竞争者和目标词之间的显著差异从第2个时间窗口开始。两条曲线在第3个时间窗口中交叉。在第4个时间窗口中可靠地锁定目标词，并且POF差异再次显着。

在高2声条件下，观察到类似于低2声条件的模式。

3.分歧点分析

为解释特定时间点的音高信息如何影响目标词和竞争者的POF。对声调开始1-1200ms的每2ms时间间隔，获得每个POF曲线的95％置信区间。然后将置信区间的下限与机会水平（25％）进行比较，以确定目标或竞争者的POF明显高于机会水平。

在两个低终点音高条件下，竞争者置信区间的下限在314毫秒（低3声条件）和346毫秒（高3声条件）开始高于机会水平。在两个高终点音高条件下，置信区间的下限在434 ms（低2声条件）和348ms（高2声条件）开始高于机会水平。表明对3声对象具有明显的偏好，在声调开始后约350-450毫秒观察到。考虑到大约200ms的扫视延迟，这表明音高信息在50-250 ms到达转折点，从而导致对目标或竞争者的注视。

目标（2声对象）POF的下限在668ms（低2声条件）和732ms（高2声条件）高于机会水平。该结果表明终点音高对目标识别的关键影响。