1.参考文献 ¶
Shuai, L., & Malins, J. G. (2017). Encoding lexical tones in jTRACE: a simulation of monosyllabic spoken word recognition in Mandarin Chinese. Behavior Research Methods, 49(1), 230-241. http://doi.org/10.3758/s13428-015-0690-0
2.研究背景 ¶
TRACE模型一直是语音识别中最具影响力的模型之一,但TRACE模型尚未在许多语言中进行运用,主要原因是TRACE模型目前不编码词汇声调。
TRACE模型是一个三层次连接模型,对应于口语的不同维度。模型的最高层对应于单个单词或词汇表征。中间层包含构成口语的语音单元。最低层是音素特征。各层次之间存在兴奋性联系,各层中存在横向抑制性联系。这些兴奋性和抑制性联系会影响模型中不同单元对于输入的激活程度。
先前研究表明,在语音的展开过程中,声调信息的在线访问在元音开始的时间点就进行了。开发普通话的语音识别模型时需要考虑这一点。此项研究提出了一个TRACE-T的计算模型,旨在模拟普通话中单音节语音的识别。研究修改了现有的jTRACE体系结构以对普通话音素和声调进行编码。此外,还通过模拟眼动数据来验证该模型。
3.研究方法 ¶
a.程序 ¶
首先对汉语音段结构进行编码。选择了更适合汉语音素的标准对普通话音素进行分类。将音素分为三个维度,每个维度包括两种不同的语音特征,总共六个特征:辅音的发音,发音位置和发音方法以及元音的嘴唇圆度,舌位和舌高。对于每一个维度,选择了八个水平,然后将这些水平进行二进制计算。还使用了无声音素单元作为第九个水平,值为1。
为纳入声调特征,采用了另外的维度,同时编码两个重要区别特征:音高和音高倾斜度,包括五个音高水平:12345和三个音高倾斜度:水平、上升、下降。创建了15个声调单位,分别对应于音高和倾斜度的15种组合。
使用音素和声调单位表示音节:P1THS-1 P2THS-2 P3THS-3 P4THS-4 P5THS-5,其中P1至P5是音段单位,THS-1至THS-5是声调单位。
b.实验1模拟 ¶
为了验证该模型,首先对一个实验的数据进行了模拟,该实验使用视觉世界范式来评估加工单音节单词的竞争。向汉语母语被试(N=17)展示四张图片,被试听到与其中一张图片匹配的目标词。任务是按下按钮点击与声音刺激相匹配的图片,在过程中记录他们的眼动。有一张图片的名称与目标词有语音相似性。因此,关键的操纵变量是目标和竞争词之间共有的音素组成部分。此外,还有一个基线控制条件,目标词跟三个干扰项一起呈现。
将模拟数据与实验数据进行比较,计算实验模块内各个被试和项目的总体平均值来重新分析原始数据。对实验和模拟数据都进行了增长曲线分析,使用基线控制条件作为参考,并为每个条件设置相对参数。
在实验数据和模拟数据中均表明在声调和元音与目标词不同的情况下,会引起的音节内竞争效应。反映这种效应的能力说明了模型作为普通话语音识别模型的可行性。
b.另外两个实验的模拟 ¶
第一个模拟研究了不同声调的竞争。为了进行模拟,采用了四个音节,包含四个音调。这四个音节包含不同的辅音开头以及不同的元音。与其他声调的比较相比,模拟结果反映了2声和3声进行比较时,对目标词注视时间的延迟。这与先前的研究结果一致,证明与其他声调相比,2和3声的竞争更强,因为在音节展开时,它们是根据后来的声音提示加以区分的。
第二个模拟研究了音节频率和声调概率间的相互作用。声调概率是指音节以某种声调发音的可能性。可以将其定义为音节以某个特定声调发声的频率除以所有可能声调的总和模拟的数据表明音节频率和声调概率的交互作用。这种交互作用与原研究一致,表明TRACE-T模型对这种效应很敏感。
这进一步说明TRACE-T能够模拟汉语口语识别中的心理语言效应。也就是说,TRACE-T能够模拟2–3声的竞争效果、音节频率和声调概率之间的交互作用。
4.讨论 ¶
此项研究开发了一种模型来模拟普通话中的语音识别。根据先前的发现以合理的方式对普通话音素和声调进行编码。然后通过复制被试的眼动数据来验证该模型。未来的研究应改进该模型,将其用于生成新模型假设并促进有关普通话语音感知的未来研究。