论文信息 ¶

Ryskin, R., & Nieuwland, M. S. (2023). Prediction during language comprehension: what is next? Trends Cogn Sci. doi:10.1016/j.tics.2023.08.003

论文原文 ¶

关键词 ¶

预测；语言加工；机制

摘要 ¶

预测通常被认为是递增语言理解的一个组成部分，但人们对支持预测的认知架构和机制知之甚少。作者回顾的研究表明，听者和读者使用各种形式的上下文信息来生成对即将到来的输入的多方面预测。由于语言经验的不同以及其他因素，这些预测的性质可能会因人而异。然后作者转向了尚未解决的问题，这些问题可能会指导我们寻找潜在的机制。1. 预测对语言处理是必不可少的，还是只是一种可选策略？2. 预测是从语言内部产生的，还是由领域通用过程产生的？3. 预测和记忆的关系是什么？4. 理解中的预测是否需要通过产出系统进行模拟？作者讨论了有可能取得进展的方向。

为什么预测？ ¶

尽管要考虑很多东西，但人们总是能够迅速地回复别人的话，这是怎么做到的？一个越来越流行的假说是：人们通常能够通过预测接下来的词来跟上语言输入的步伐——通过提前激活单词的含义和单词潜在的其他方面。这一假设之前还颇具争议，但过去20年的研究已经证明，语言预测的心理现实不容置疑。因此焦点已经从最初的存在证据转移到潜在的认知架构和机制上了。在视觉领域，计算级别的框架已经和机制级别的概率预测的特定实例化证据联系在一起——预测编码。根据预测编码的最典型的版本，预测信号自上而下传播到表征的最低水平，而携带着由感觉输入和预测的比较产生的预测误差的信号沿着平行的路径向上传播。这一框架在语言领域的应用前景看好，但计算级别的预测不需要通过具有明确预测目标的机制来实现。具有不同目标函数的模型也可以解释人类预测行为的某些方面。许多建议主张：人类基于环境的内部模型来预测即将到来的语言输入，并基于预测和接收到的输入之间的一些比较来更新这些模型。然而，就这些计算的细节而言，解释各不相同。在目前的综述中，作者首先综合关于人类语言理解系统的预测计算的已知信息——哪些信息被用来作为计算系统的输入，而哪些用来构成输出，以及根据影响系统的额外限制来看，可变性如何理解。然后，作者转向关于这些计算如何在过程水平上实现的问题，强调最近的发现和尚未解决的争论，并展望该领域可能如何走向对语言预测的机制性的解释。自始至终，作者专注于高级语言理解，通常在句子的水平，而搁置了对较低级别的听觉/视觉特征预测的详细讨论。

计算层面的预测 ¶

数十年的心理语言学研究表明，一个词的处理在一定程度上取决于它之前的词——也就是句子语境。当一个单词在给定的句子语境中被高度期望时，它更容易被识别、被更快地阅读，并且它在N400时间窗口内引起地电生理反应比在给定上下文中不被期望时更小，此外，听者将他们的注意力指向期望单词的图像。单词在上下文中出现的概率，可以通过语料库计数、语言模型或完型填空任务来估计，上下文概率较低的单词阅读速度较慢，并引发了更多的负性N400反应。类似的，当使用包含上下文的表示时，预测神经活动的编码模型相对于不包含上下文的语言输入的表示表现得更好。（？）但这种研究也引发了一些讨论，很难区分：1. 由于在接收到自下而上的输入之前就已经预测到了单词，所以促进了听者对单词的处理。2.当接受的输入与先前的语境整合时，当输入与上下文匹配时，这种整合被促进了。然而，其他发现提供了令人信服的证据，表明整合不能解释所有明显的预测效应，尽管它也可能发挥作用。此外，分析神经数据的多变量方法已经开始揭示在收到关键输入之前的时刻发生的预测过程。表征相似性分析（RSA）表明，在关键输入之前，对于相同单词（在不同语境中）的预测的神经模式比对应于不同单词的预测的神经模式更相似，并且这些神经模式可以包含粗粒度的语义信息，例如即将到来的单词的生命性。类似的，当目标词具有较高的上下文可预测性时，目标词的神经模式可能更类似于目标词本身所唤起的神经模式。在与机制无关的术语中，我们可以将预测设想为理解者将自己塑造成类似于接下来可能发生的事情的心理状态，这样，来自上下文的自下而上的输入越可预测，当输入被接收和处理时，状态发生的变化就越少。

输入：预测的上下文人类语言系统似乎是根据一系列输入属性进行预测的。在自然听力中，基于语音、词汇和句法序列的语境概率似乎会调节神经反应，然而，这基于序列的估计可能不能完全捕捉人类的可预测性判断。事实上，理解者考虑的是广泛范围内的上下文信息，例如，句子所嵌入的更大的叙事和世界知识都会影响预测。语用线索和对说话人意图的推断也有助于预测。听者预测当说话者说错了，他们将如何改正自己（例如当听者听到说话者说：“他的猫…呃..我是说，他的…”，这时候听者看向狗）。他们还会考虑说话者的特点，并相应地调整他们的预测。在这一点上，人们在预测即将到来的单词时，有时会考虑上下文中的统计规律（例如实验中预测错误次数更多），尽管他们可能并不是总是这么做。

输出：预测的内容预测传递的信息是什么？粒度又是多少？语义或概念预测的证据是可靠的。预测信息不是由单个最大可能的单词组成，而是看起来是分级的，因此包含了形式和意义的多个方面。根据神经反应是如何分割的，当语境受到限制时，可以显示理解者的预测可以捕捉到粗粒度特征，如生命性，以及唯一识别词汇项目的细粒度特征。最近的研究使用自然主义范式——被试听录音，无需任何明确的任务或实验性操作，支持了跨多个表达域（语义、语法、语音）和时间尺度的分层预测角色，其中较高级别的信息限制较低级别的预测。（例如，当单词的语义与其上下文相关时，这些单词的声学特征似乎由大脑编码得更准确）。尽管这项工作表明，即使是低水平的言语感知也会受到预测的促进，但这些自然主义的研究往往不能在时间上将预测和预测的结果区分开。自上而下的预测信号是否达到感觉-知觉（视觉/听觉）表征一直是这篇文献中长期争论的焦点。fly a/an kite实验中，一些人认为听者不仅预测了实词，还预测了它之前的冠词的形式。同时，听者在阅读押韵文本时，可以预测即将到来的单词的语音特征，然而这些实验并没有解决预测在典型理解中能多大程度上达到知觉表征的较低水平。

预测中的限制和可变性语言预测中的限制是什么？根据预测处理/贝叶斯大脑解释，语言使用者持续地考虑/更新所有可能的语言输入的全概率分布。然而，在其不受约束的情况下，该提议在计算上是难以处理的。资源理性的解释认为思维和大脑在人类大脑的生物和信息限制下进行理性推理，但这些限制是什么，特别是关于关于，有待确定。根据人的预测处理能力来研究人与人之间的差异，可以提供这些限制的初步探索。这一背景下，经常对三个群体进行调查，因为相对于默认对照组，这些群体的预测似乎有系统性的不同：儿童、二语者和老年人。预测处理框架中隐含着这样一种想法，即人类有一个内在的世界模型，他们的预测就是从这个模型里得出的。这个模型不可能是与生俱来的，因此必定是学习的结果。受联结主义模型启发的一种常见观点是，预测本身并不是目的，而是内部模型不断调整以更准确地反映世界的一种手段。一些证据支持这种观点：当儿童拥有更多词汇知识时，他们的预测更新（通过眼动或ERP反映）更大，随着孩子们改进他们的语言模型。然而，另一种观点认为，一旦儿童有了足够的语言经验，他们就开始预测。一种密切相关的观点认为，总体认知成熟可以解释成人型的语言预测的延迟，儿童执行资源和工作记忆技能会增长到25岁左右。假如预测涉及到了这种执行资源，儿童预测即将到来的语言材料的能力是同步发展的。类似的，二语者等成人，对他们所测试的语言的经验较少，似乎也比对该语言有更多经验的同龄人预测得更少。和儿童语言预测的发展类似，这些差异可能是由于这些个体的预测生成内部模型的准确率较低导致的。而当二语者对他们测试的语言非常熟悉时，这些差异就会消失。另外，这种差异也可能是由执行资源中介的。尤其是，语言不太流利的理解者可能会在增量理解的基本方面（例如，单词识别）耗尽他们的执行资源，留下几乎没有可用的资源来生成预测。换句话说，预测加工的差异可能是由于理解的其他方面的差异造成的。最后，与年轻人相比，老年人在可预测和不可预测的刺激之间的神经或行为反映的差异通常会减小，表明老年人在利用上下文进行预测方面不太成功。对于其他人群来说，可能的解释是：预测是消耗执行资源的，而执行资源从20岁开始下降。而对于老年人来说，可能是由于经验的影响导致预测的下降，当年老时，大脑优化了对世界的内部模型，从而导致更有效率的预测等总之，老年人预测的内容可能和年轻人预测的内容不同，由于语言的内部模型不同。

语言中的预测机制 ¶

在接下来的内容中，作者首先简要总结了一些已经出现的机制性的建议，然后讨论可能有助于限制可能机制的空间和指导未来研究努力的关键问题。 1.预测编码。预测编码已经成为如何在算法和/或实现级别上实现感知和认知的各个领域中的预测的主要建议。语言的预测编码解释认为：来自较高级别的（如意义、句法）的语言预测被向下发送到较低级别（如词形/语言感知）。另一项建议明确地将N400组件的幅度和精度加权的自上而下的预测编码误差信号相关联。2.基于错误的学习。尽管预测编码里的错误信号是构成推理或理解的层级之间的信息流的一部分，但传统的联结主义通常将预测错误主要作为学习的驱动因素。在这些结构中，模型尝试预测下一个元素，并在接收到下一个输入时，计算其预测和输入之间的误差，然后该误差被传回以更新模型权重，目标是最小化未来预测误差。3.其他的。还有许多其他可能的模型体系结构，其中许多可能没有包含显性预测（或预测错误），但仍能解释一些数据。关键的未解决的问题：

预测到底是必须的还是可选的？根据将预测视为一种基本计算的说法，成年人阅读或听典型句子时，不太可能采用完全被动的理解模型。这一观点得到了许多研究支持。而相比之下，支持将预测视为一种“可选策略”的人指出，有研究表明人口之间的可变性，以及在不利条件下明显缺乏预测效果。解开这两种观点的一个挑战是，很难解释可预测和不可预测的句子延续之间明显缺乏差异。某些情况下，可预测性的实际影响可能很小，需要大量的数据才能可靠地检测到。这可能意味着：1. 听者什么都没预测，只是被动地等待着两种类型句子的下一个输入。2. 听者对可预测的句子有一个“强”预测，但它与实验者选择的可预测的句子不匹配。3. 听者的预测较弱。就机制而言，“必要的“这一说法得益于简约，根据这一观点，不断预测和更新内部模型是语言系统无处不在的强制性动态。而”可选的“这一说法除了提出一种对语言理解/学习机制无关紧要的预测机制外，还必须建立一种机制，用来跟踪或评估预测的成本或效用，而执行功能就经常被提出来履行这一职责。
语言预测是依赖于特定的语言过程，还是依赖于领域通用过程？在某种意义上，预测可以被认为是”领域通用的“，因为它发现在视觉处理、感觉运动学习、音乐和社会认知等许多领域的大脑皮层。然而，在另一种意义上，如果它是在本地电路中实现的，而不是由共享的预测中枢来指导，那么它就可能是特定于域的。这些不必完全相互排斥。不可预测的语言刺激会在语言网络中引起最大的反映，一组额叶和颞叶大脑区域，在语言理解过程中反映最强烈，最有选择性，因此，语言预测的计算可能至少在很大程度上发生在该语言网络的局部回路中。是否有额外的网络参与语言预测是一个未解决的问题。另一种意义上的”领域通用“是指认知过程的参与，如执行功能和工作记忆，无论计算基础如何，这些过程通常与增加的脑力劳动有关，并且在功能上局限于大脑中的额顶网络。语言是否涉及这些执行功能/工作记忆是一个积极研究的领域，可能会极大地限制语言神经结构的假设空间。如果语言预测确实使用了任何执行功能，那么预测完全在本地语言回路里实现的架构就不太可能了。在一些人群（如二语者、小孩和老人）里，预测减少的观察结果被用来论证执行功能/工作记忆在预测中的应用。这都是基于这些人的执行资源已经被使用的假设下进行的。试图将EF/WM中的个体差异与语言预测联系起来的结果喜忧参半。或者，执行资源可以在线处理预测的后果，而不是在生成预测的过程中。而注意力——有时被认为属于执行资源的下属，尽管它可以与抑制性控制/工作记忆分离，但似乎需要完全参与预测处理，因为分散注意力的被试在理解单词语义时表现出了较少的语境促进作用。频谱分析也表明注意力可能对预测的生成特别重要，或者约束句更能吸引注意力。而相比之下，许多实验又显示出了语言理解和多需求系统之间的区别，显示在典型的语言理解的过程中，额顶执行资源并没有被利用。这并不排除，当输入不正常或者被认为是错误的情况下，会使用执行资源的可能性。例如在上下文中可预测，但是是错误的很容易纠正的单词，例如“he went to deposit his check at the pank”，就会引起P600。大脑的语言网络似乎对句子层面以外的语言环境不敏感，但即使是长期没有接触的情况下，人们也能灵活地调整他们地预测，以适应说话者或者更大的话语环境。例如知道某人住在那里可以立即改变我们对他们可能说什么的预测，这种灵活性可能依赖于语言网络和领域通用网络之间的相互作用。
预测和记忆之间有什么关系？我们的预测是由我们记忆中的东西决定的。在处理的时候，理解者根据受人类记忆丧失的限制的上下文的表征得出预测。在发展的过程中，儿童学习到的内部模型能够使他们充分利用记忆来预测他们在环境中所经历的语言。日常生活中接触到的内容持续塑造着我们的助记表达和预测。尤其是当我们考虑到一个专业领域的专家和一个非专家的预测有何不同时尤为明显。这种学习是如何进行的？根据基于误差的学习解释，每个预测实例之后是预测和接收的输入之间的比较，并且两者之间的差异通过网络传播，从而导致更新的内部模型。这个更新的模型反过来决定了我们如何记住未来的上下文以及决定了给定上下文将生成的预测。这类解释预测：每个预测实例也构成了一个学习事件：当预测远离输入时，更新是实质性的，而当预测和输入接近时，更新是最小的。当这种更新是通过皮质传播时，一个假设的神经特征是较晚的额叶负性，当理解者接收到看似合理但与他们可能预测的不同的输入时，会观察到这种（似乎就是PNP）。这一部分与抑制控制有关，并且潜在地与认知控制在预测误差信号中的作用一致。在高度限制的上下文中，一些高度预测的单词在稍后再次阅读时，会引起较小的重复效应，而对于那么不可预测的上下文中的单词，这个效应不存在。这体现了预测对听者在记忆中的语言的表征产生更长期的影响。依赖预测错误的学习机制和这些结果是一致的，因为较大的预测误差会引起网络链接——记忆和未来估计的较大变化。
产出系统在语言理解中的预测的作用是什么？语言理解中的预测的早期描述提出，这些预测是在与用于语言产出的相同回路中实现的，这个建议与在神经网络模型中实现预测和产出的方式是一样的。当被试在理解过程中参与发音抑制任务（即，大声重复ta/da）时，他们的pre-nominal效应降低，这表明产出系统起到了因果作用。此外，在理解过程中默读一个高度可预测的词似乎比默读一个不可预测的单词具有更大的助记力。此外，大声地阅读预测上下文似乎有助于预测。 然而，最新的观点认为，只有在产出的成本较低的特定条件下，才能通过产出系统进行预测。这种描述将通过理解和隐蔽模仿来强制推导说话者的意图与通过产出系统运行意图来生成预测的可选过程区分开来。解决这个问题的过程中，也许可以解决预测到底是不是必不可少的这个问题！这个问题还涉及到语言研究中另一个重要问题，即语言理解和语言产出之间的关系是什么？长期以来，神经心理学研究表明，产出和理解的差异在相对上游：失语症患者在产出缺陷的情况下，通常保持了理解能力，反之的情况很少。然而，这两个系统必须共享一些表征，因为它们都利用了相同的丰富世界和语言知识。此外，如果产出要达到传达预期信息的预期效果，就必须考虑听者将如何解释所说的内容。来自健康个体的神经影像学证据表明，在高水平的语言产出和理解的过程中，大脑区域有很大的重叠。但这些发现并不能排除理解和产出的回路是分开的，而在语言网络中是连接和紧密交叉的可能性。大多数机制化的建议要么侧重于理解，要么侧重于产出。

总结 ¶

语言理解中的预测被认为有助于快速交换信息，减少不确定性，实现终身学习。尽管有很多实验证据支持计算描述，但目前我们仍不知道计算是如何受到潜在机制的约束的。在该综述中，作者概述了一些关键问题，这些问题有助于指导语言预测的机械解释的发展。这些问题如上述所示。理解语言预测是认知科学的核心目标，它一直是，并将继续是关于人类和机器智能的本质和发展的理论辩论的中心。