论文信息 ¶
Shain, C., Meister, C., Pimentel, T., Cotterell, R., & Levy, R. (2024). Large-scale evidence for logarithmic effects of word predictability on reading time. Proc Natl Acad Sci U S A, 121(10), e2307876121. doi:10.1073/pnas.2307876121
论文原文 ¶
关键词 ¶
大语言模型;反卷积模型;预测
摘要 ¶
(说人话就是,预测度和加工困难之间的相关性有两者观点解释,一是认为预测带来的促进效应,能促进我们的加工,越容易预测的词,越能够促进进程,二是认为预测是一个从巨大的词池里进行概率推理,因此反映了加工的成本,越不容易预测的词,成本越高) 在实时语言理解中,我们的思维迅速地从一连串词中解码复杂的意义。大家普遍认为,这样做的困难程度和词的可预测程度(根据上下文)相关联,但是这些可预测度效应反映了什么认知进程呢?一种观点认为,预测度效应反映了从上下文可预测的词的预测加工带来的促进作用,这种观点预测了一种基于加工需要的线性的预测效应。另一种观点认为,预测度效应反映了基于句子解释的概率推理的消耗。这种观点预测了要么是对数要么是超对数的预测效应,这取决于它是否承担了随着时间的推移信息均匀分布的压力(这里不太明白?)。 作者分析了六个阅读数据集,使用不同的统计语言模型估计下一个单词的概率,并使用非线性回归的最新进展对阅读时间进行建模。结果支持单词可预测性对处理难度的对数效应,这有利于将概率推理作为人类语言处理的关键组成部分。
论文要点 ¶
许多以前的证据表明:加工一个词的困难程度是和它在语境里的可预测度是相关的。但是这种效应到底反映了什么认知进程呢?仍在争论。 1.促进观点,一些人认为,这种预测度效应反映了基于对未来词的预测进程的促进效应(例如词汇提取和结构整合)。在这种促进观点里,句子加工的最初工作就是建立句子结构和意义的心理表征,加工的需求与建立这种表征所需的认知操作的难度成正比。预测通过允许加工者提前应对一些这种负担,促进了这种进程,因此使得认知资源的使用更加有效。这种观点因此是一个线性的:因此,这种观点预测了上下文概率的线性效应:一个单词可以与它在串行处理器中被正确猜测的概率成比例地提前进行部分处理(例如,参见参考文献1和6进行讨论),或者与在并行处理器中可能分配给它的处理器资源成比例地预先进行部分处理(????)。 这种促进观点会导致:预测度效应最初是被高度预测的词驱动的,因为只有这类词的预测最可能是准确的,并且预测正确会有显著的益处,不同的低预测度词之间可能差异就特别小,因为可能没有什么提前的加工。 2.另一些人认为,可预测性效应主要反映了处理成本,即概率推理的成本。这种成本观点来自于信息论,它将预测作为一个生成的、概率的心理处理器的内在特征,其主要工作是在一个巨大的(甚至是无限的)空间上对展开的句子进行可能分析的增量概率推理。因此,这一位置预测了语境可预测性的对数效应(或者,等价地,surprisal的线性效应)对加工难度的影响。COST观点的一个结果是,可预测性效应应该主要由小概率的微小绝对差异驱动,因为这些差异在对数(令人惊讶的)规模上是很大的。在总预测失败的限度内,灾难性的处理失败(无限的处理成本)随之而来–因此,在这种观点下,假设下一个词的概率永远不是真正的零。 3.还有另一种版本的COST观点,认为预测度和加工难度之间的关系是超对数函数的,这里不细说。 2024-03-04-YXY-Fig1 4.上下文概率获得,该用什么方法?:以往的证据啥都有,三种都有。这些可能和使用的不同的方法有关系。主要区别在于人们是如何算上下文概率的。一些人使用统计语言模型来量化,而一些人使用完型填空概率。完型填空优点很多,但是缺点是难以准确估计低上下文概率的程度,每个上下文需要数百万个样本才能达到统计语言模型的精度。不幸的是,这些恰恰是区别上述假设的经验预测的最强烈的概率。 5.同时还有材料的区别,一些人用的人造材料,还有的用的自然的语言材料。 6.作者基于6个英语数据集,结合统计语言建模的最新进展和基于最近引入的连续时间反卷积回归神经网络的统计分析,重新审视了单词可预测性效应的功能形式。简而言之,cdrnn利用深度学习的力量来推断一个高度表达的脉冲响应函数(IRF),该函数将固定单词的特征与连续时间内测量的阅读时间作为其距离的函数联系起来。例如,拟合的模型将包含对给定固定单词的给定惊喜值如何影响未来500毫秒阅读行为的估计,从而直接考虑非线性和连续延迟效应的可能性。cdrnn的架构允许它们放松上述所有简化假设:预测因子可以对响应施加任意非线性和交互影响,响应函数可以在实验过程中改变(非平稳性),预测因子可以影响预测分布的所有参数,而不仅仅是平均值 7.作者考虑从不同的统计语言模型中得出的单词可预测性估计,计算模型定义了给定其语言上下文的下一个单词的概率分布。具体来说,我们考虑了一个n-gram模型,该模型从文本语料库中的单词序列计数表中预测下一个单词(40),一个概率上下文无关语法(PCFG)模型,该模型根据一组关于句子结构的假设预测下一个单词(句法树,(41)),以及三个基于转换器架构的预训练深度神经网络语言模型(42):GPT-2(-small) (43), GPT-J(44)和GPT-3(45)。 在之前的工作(1,14,25)中,作者的部分分析依赖于模型估计的可预测性和处理成本之间关系的可视化。然而,我们超越了这些视觉印象,并在关于可预测性影响性质的不同假设下,比较了每个数据集的空白部分上的模型性能。所有的统计比较都是基于预训练的cdrnn在训练中没有看到的数据上的表现,直接基于模型泛化程度的假设检验. 2024-03-04-YXY-Fig1 8.同时,作者也发现GPT2的性能明显优于GPT3。 9.后续的结果就是支持对数效应,也就是支持之前提到的概率推理是人类语言处理的关键部分。 线性(Facilitation View)和对数(Cost View)之间的区别主要体现在它们如何描述可预测性与处理需求(或难度)之间的关系:
促进观点(线性):这种观点认为,如果根据上下文可以预测一个词,那么这个词的处理会更加容易,处理需求随着可预测性的提高而线性降低。换句话说,高度可预测的词将促进提前处理,这种处理增益与词的可预测性成正比。如果一个词的出现是非常可预测的(也就是说,在给定的上下文中几乎可以确定会出现),那么它几乎不需要额外的处理资源。因此,随着词的可预测性提高,处理需求(或难度)线性减少。
成本观点(对数):与促进观点不同,成本观点认为,可预测性对处理需求的影响呈对数关系。这意味着当一个词的可预测性非常低(即在给定上下文中出现的概率非常小)时,理解它所需的处理需求急剧增加。在这个视角下,当我们遇到一个完全不可预测的词时,其处理难度急剧上升,因为解释器需要大幅更新其对句子的理解。对数关系意味着随着可预测性的减少,处理需求的增加速度会减慢,但从高可预测性到中等可预测性的转变会导致显著的处理成本增加。
这两种观点的区别在于,促进观点认为高可预测性直接减少了处理需求,呈线性关系;而成本观点认为不可预测性(即低可预测性)增加了处理需求,这种增加是以对数方式发生的,即可预测性每下降一点,处理需求增加得越多 2024-03-04-YXY-Fig2 *对于促进观点(线性),当单词的出现概率接近于0时,处理需求确实不会因为概率的进一步减少而有显著变化。也就是说,这些单词所需要的处理资源都差不多,因为预测性极低的单词几乎不可能被提前处理,所以它们在处理上的需求几乎是相同的,没有预测性的好处。
而对于成本观点(对数),概率接近于0的单词在处理需求上的差异是显著的。这是因为在对数关系中,即使是很小的概率差异,也会在处理需求上造成大的差异。换句话说,对数模型中,随着单词的可预测性减少,其处理成本增加得更快。因此,即使是非常不可预测的单词之间,也会因为它们的概率差异而有很大的处理需求差异。
因此:在促进观点下,概率接近于0的单词处理需求相似;而在成本观点下,这些单词的处理需求可能会有很大差异。*