词汇预测的线性模型



1. 参考文献 ¶

Trevor Brothers, & Kuperberg, R. G. (2016). Word predictability effects are linear, not logarithmic: Implications for probabilistic models of sentence comprehension. Journal of Memory and Language, 116(2021), 104174. http://doi.org/10.1016/j.jml.2020.104174

2. 研究背景 ¶

关于语境可预测性与单词加工难度函数关系的认识存在分歧。此研究关注两类模型:线性和对数模型,并进行两个行为实验和meta分析,以解决这一争论。

线性模型的假设是,前后一致的句子语境有助于单词加工,读者根据每个单词的出现概率分配预激活比例,多个单词特征是并行激活的,在自下而上的输入中,非零概率的任何单词都会根据其出现概率被不同程度地激活。随着词汇可预测性的提高,单词识别所需的时间应呈线性减少。

对数模型与比例预激活有一些共同的原则,但在两个方面有区别。1.预测加工难度与单词概率之间的对数关系,意味着读者必须预激活大量低概率单词。2.将语言加工的多个方面整合为单一的机制。

之前的相关研究通常只有少量的测试项目和被试,且低概率的单词项目较少。而低概率单词的加工难度差异正是线性和对数模型的最大差异,线性模型预测低概率单词的加工难度差异很小,但对数模型认为在低概率范围内加工难度会有相对较大的差异。此项研究纳入了大量的测试项目和被试,并且在低概率情况下,使用了大量的句子材料。

有一项研究作为支持对数模型的有力证据,但有一些局限性。1.采用基于语料库的分析,在没有施加实验控制的情况下,会存在其他可能影响阅读时间的混淆因素。2.使用三词共现率作为词汇概率,而读者会对更广泛的语境约束敏感。实际上,三词共现率已被证明与完型概率弱相关。此项研究使用严格控制的实验设计来重新检验单词概率与加工难度之间的关系。从成人读者那里获取完型概率的更直接估计。

研究预期:如果函数是线性的,那么与中等概率和低概率(20%与1%)相比,高概率和中等概率(91%vs. 20%)之间的激活差异应该更大。而对数则相反。

3. 研究方法 ¶

使用自行阅读任务,研究词汇可预测性和阅读时间的关系。

选择了216个关键词(名、动和形容词),形成三种语义约束级别的句子。在句子中,相同的关键词在句子中是高概率、中等概率或低概率的。

High: Her vision is terrible and she has to wear glasses in class.

Mod: She looks very different when she has to wear glasses in class.

Low: Her mother was adamant that she has to wear glasses in class.

每组句子中关键词的位置始终相同,并且关键词前的1-5个单词保持不变。在关键词之后添加了2-5个额外的单词,这些词在每组句子中始终是相同的,每组句子的平均语义相似性没有差异。

240名被试随机分配到三个实验列表中的一个,每个关键词在列表中只出现一次。被试阅读216个实验句子和96个填充句,以随机顺序呈现。阅读时间为在两次按键之间的时长。在25%的句子之后,被试回答了理解问题:

24名被试被排除,因为其理解准确率低于75%。其余被试的平均理解准确率为95%。这表明被试在整个实验过程中认真阅读了句子材料。

使用GAMM来估计函数。还使用线性混合模型直接比较线性和对数函数的拟合度。结合关键词和随后两个单词的阅读时间,这一部分作为关键区域。超出被试平均阅读时间三个标准差或关键区域的阅读时间少于300毫秒的数据被排除。

在关键区域中,有高完型概率单词的句子阅读时间比中等概率和低概率少。完型概率与阅读时间的关系是线性的,因为与中等概率和低概率的单词相比,高概率和中等概率单词的句子的阅读时间差异更大。

GAMM分析发现单词可预测性和阅读时间之间存在明显的线性关系。线性混合效应分析也发现线性模型的拟合度更好,与GAMM结果一致。

总之,在自行阅读任务中,观察到词汇可预测性水平提高的情况下,关键区域的阅读时间缩短。至关重要的是,这种预测性效果显然是线性的,因为其大部分是由可预测性高的单词驱动的。

虽然实验1的结果很有启发性,但其结果是通过语言理解任务获得的。在实验2中,采用了不同的范式-跨模式图片命名。

从实验1中选择了84个句子进行测试。关键词始终是具体名词,可以很容易地在图像中表示出来。句子的口语版本由一位男性录制。句子的时长从2.5s到5.8s。

36名本科生在实验中听到句子,并且在250毫秒的延迟后,看到计算机上显示的关键词的彩色图像。要求被试用单个单词尽可能快速准确地命名每个图像。

被试共听到168个句子,与24个填充句随机混合。每张关键词图片中出现两次,一次是在实验的上半部分,另一次是在下半部分。总共有六个句子列表,呈现顺序在被试间平衡。整个实验持续了大约25分钟。结束后立即进行记忆识别任务,以确认被试注意了句子。图片命名使用麦克风记录,言语产出反应时间和命名错误由评估者进行评分。

相比于中等概率图片和低概率图片,被试更快地命名高概率图片。完型概率与命名反应时间的关系几乎是完全线性的,其中,高概率和中等概率词之间的命名反应时间差异较大。

GAMM分析也表明完型概率与命名反应时间的线性关系。在单个实验中,所有被试的行为反应与线性函数更加拟合。这一发现证明线性关系不是多被试平均的结果,而是稳定且可在个体间复制的。

包括句子理解过程的眼动研究,纳入标准:(1)被试为本国成年读者(2)包括至少三个级别的完型概率(高,中,低)。尽管各研究的关键词完型概率并不一致,但词长和词频是经过匹配的。meta分析总共包括五项研究和八个独立的实验,来自218名被试的数据和16,680项试验。这些研究使用了多种测量方法,包括单词注视时间比,首次注视时长,注视时长和总时长。

结果发现对于所有测量方法,单词完型概率的影响显然是线性的。

4.讨论 ¶

结果揭示了词汇可预测性与加工时间的线性函数关系。

方法论意义:首先,应谨慎看待基于“自然”数据的分析结果。其次,应尽可能避免使用共现概率来代替词汇可预测性。完型概率仍是评估句子理解中语境可预测性影响的金标准。

理论意义:对数模型意味着读者投入相对较少的资源来预激活高概率词,而投入相对更多的资源来预激活大量低概率词。在无限资源的加工系统中,这种非比例的预激活机制可能是有效的。但预期加工需要利用有限的资源。预激活大量低概率单词是效率低且不合理的。对数模型还假设单一的加工机制。但研究发现很难将这种单一机制与不同类型的语境约束导致的阅读行为差异统一起来。

总之,为了最好地分配资源,读者会根据概率按比例预激活即将输入单词的词汇特征,这种比例预激活会随着词汇概率的增加而线性缩短加工时间。