基于并行架构的预测解释



论文信息 ¶

Huettig, F., Audring, J., & Jackendoff, R. (2022). A parallel architecture perspective on pre-activation and prediction in language processing. Cognition, 224, 105050.doi:10.1016/j.cognition.2022.105050

论文原文 ¶

关键词 ¶

语言预测;语言加工;并行架构

摘要 ¶

心理语言学研究最近的趋势是把预测作为语言处理的一项基本功能,本文从预激活的角度提出了审视预测的语言学视角。作者描述了什么是预测以及它们是怎么发生的。作者的前提是:1. 在没有任何知识支持的情况下,不能做出任何预测。2. 因此有必要描述这种知识的确切形式,如适当的语言表征理论所揭示的那样。作者描述了并行结构(PA),这种结构明确了我们关于语言表征的commitment,并基于这些表征描述了我们的加工过程。十分重要的是,传统上被视为派生语法规则的东西,被PA形式化为词汇项目,以与单词相同的格式编码。随后,作者用这些术语提出了一个预测理论:语言的输入激活了那些开头(或初始)对应于目前为止遇到的输入的词汇项目,而预测相当于预先激活了那些词汇项目中还没有听到的部分。因此,预测的生成是处理语言表征的自然副产品。作者的结论是,PA关于预激活的观点为语言加工中的预测提供了一个可信的解释,链接了语言学和心理语言学的理论。

1. 引言 ¶

这篇论文汇集了两个主题:1. 平行结构PA,一种基于纯粹的语言现象而发展和辩护的语言学理论,但它也与语言处理的心理学有相对直接的联系。2. 第二个重点是对语言加工中预测的分析——预测的机制和功能。将这两个焦点结合在一起,作者建立了一个关于PA如何影响预测理解的一般理论。 现在许多认知科学的实验结果经常用预测性思维框架来解释,即使被试没有表现出预测,即使对望对类似结果的解释不同。甚至有人把人类思维视为“预测引擎”或“预测机器”。心理语言学研究已经开始把预测作为语言处理的一个(甚至是唯一)基本特征。因此加强预测的概念是有意义的。本文试图利用平行结构PA的理论工具来实现这一点。 作者在这里所说的语言处理中的预测是指:作者希望将其视为语言表征的预激活,在即将到来的自下而上的输入有机会激活它们之前。这很简单明了,与普通语言中“预测就是关于未来发生的事情”很一致。预测的理论有三个基本问题:1. 预测的形式是什么?2. 预测是如何生成的?3. 预测在语言理解中的作用是什么? 作者在这里阐述了方法,从一些基本假设开始:首先,人们普遍认为,长时记忆中的词汇项目会因为输入匹配而被激活,其次,人们普遍同一加工是机会主义的:激活从被激活的项目扩散到内存中相关的(类似的)项目,第三,人们普遍认为词汇通达是“混杂的”:所有与当前输入一致的条目都被激活,导致多个项目竞争“正在听到的东西”。 作者认为,语言理解中的预测就是以记忆中的一段语言结构的形式出现的,在它可能在输入中出现之前,它就已经被激活了,也就是“预激活”。一旦被预激活,它就与随后的输入以及其他的预测相互作用,促进或干扰加工,视情况而定。 基本上有两种方法来预激活词汇材料(即,生成预测):1. 一是通过在语义网络中传播激活,或通过概念之间重叠的语义特征来传播激活,这种情况通常被称为“语义”或“联想启动”,它的存在是有争议的,作者把这种机制称为项间预激活(如香蕉——苹果?)。2. 一个词汇项目可能在整体出现在输入中之前,就可以被激活(这种源自于机会主义理论),作者将已经与输入匹配的项称为incipit部分,而把输入中尚未遇到的部分称为“remainder”,实际上,预激活的remainder就构成了对即将到来的内容的预测,作者把这种机制称为项内预激活。 基于PA的解释允许预测被视为词汇通达所涉及的机制的自然结果。PA结构的作用是使得预测的概念更加精确,并强调其普遍性,特别是PA的“扩展词典”的概念允许在句法、语义、音系学以及各种尺度上的预激活。

2. 一种表征理论 ¶

  1. PA 作者先介绍了PA及其后代,Simpler Syntax、Relational Morphology的相关原则。 PA得名的特点是它将语音、语法、语义视为独立的组合系统,并行允许。每种级别的表征都有自己的生成能力,由自己的特征单位构建而成。例如,单词cat由一段语义结构(单词的意义)、一段语音结构(/KAT/)、以及句法范畴(名词),以及它们仨之间的接触链接。因此,一个词由三个表征组成,跨越三个层次。大多数语言理论都共享这三个层次的概念,主要是在如何概念化这三个层次之间的联系方面有所不同。 PA这种解释对加工有直接的影响、在语言理解中,输入/kat/激活音系层,然后,激活顺着interface link传播到句法结构N层和意义层(不一定是这个顺序),并且在处理其余的话语时它们保持链接。如果我们认为语义是高层次的,而音系是低层次的,那么理解从根本上就是“自下而上”的。而在语言产生的过程中,激活的流程是相反的,我们先从语义开始,沿着interface link传播,激活相关的单词,发音为/KAT/,因此我们认为产出是自上而下的。 PA对表征层次之间的关系的处理与生成语言学中的普遍前提形成鲜明对比,即递归句法是语言结构中组合性的主要来源,语义和音系均源自于此。虽然语义和音系无疑与句法相关,但他们各自具有无法从句法中推导的独立属性。此外,语义和音系之间存在着独立于句法的直接联系,例如语义中的焦点和音系中语调之间的关系,此外,对于PA来说,利用递归来实现“有限手段的无限使用”不仅涉及语法,还涉及语义。
  2. 扩展词典 PA理论与经典的生成语言学的不同之处在于,它将lexicon不仅仅视为是传统的词汇储存库。一方面,一个人的语言知识必须涵盖成语——语音和句法结构的片段,包含多个单词,但其含义无法从其各个部分的含义构建(大概就是“go Dutch”)。例如,kick the bucket(死的意思),通过下标2链接成一个词汇项,其中下表345将语法和各个单词的音系联系起来,但它们与语义没有联系,如下图

    2023-10-15-YXY-Fig1

    。除了这种习语之外,还有很多固定表达比如“I think so”等,这些都是人们必须学习和储存的英语事实。因此,所有这些不同类型的词汇项目——单词、搭配、习语、有意义的句法结构,都由语义、句法和语音结构组成,通过interface link联系在一起。 PA和传统生成语言学的另一个区别在于语法规则的地位。例如英语中的复数,在传统生成语法中,复数的形成受到派生规则的支配,即要形成复数就加s,而PA中对应项是下图

    2023-10-15-YXY-Fig1

    。也是一段语义、一段语法、一段语音组成,由下标链接。不同的是它的部分结构是变量,我们可以替换从而产生结构。这种也可以用新遇到的名词实例化,自发产生新的表达,如wugs。这些变量使得在语义、句法和语音层面上创建复合结构成为可能,与传统的生成语法不同,句法部分并不是优于其他两种的(也就是三者一样重要,不分轻重?)。 更广泛的说,所有语法规则都可以用公式重新表述:基本上与单词的格式相同。因此,在本质上,单词和语法规则之间不需要进一步区分:它们属于一个单独的系统,可以称为“扩展词典”。这种图式通过统一的操作完成了规则的传统功能——即创建无限数量的新结构。统一用更多的材料实例化图式的变量,如上面的CAT所示,统一单词和图式的结果就是产生一个复合体,它共享它们所有共同特征并保留所有不同特征。称之为图式的生成功能,因此,句子的构成涉及通过将储存的片段“剪辑在一起”,这在存储结构中变量的实例化方面提供了一种直接的生产力的实现(没懂?)。 同时,学者设想的PA词典在另一个方面和传统的词典不同:它明确地编码词汇项之间地关系,如laugh和laughter。可以将laugh和laughter地关系称为关系链接。可以通过图式看出,laugh是laughter地基础,但是这个图式并不是用来产生laughter,而是明确编码两个词汇项在所有三个层面之间的关系。这种关系的存在“支持”或“激发”laughter(它不想飓风这种缺乏内部结构的词那么随意)。所以laughter更容易学习和处理。 像raining dogs and cats这种,这些表达的完整意义无法从其各部分的含义构建出来,因此必须学习和储存这些表达式。但并不意味着它们被储存为了整体的非结构化单元。同样,直觉是,与模式的关系链接使得这些习语更容易学习和处理(因为laugh会带来额外的激活)。 有一个重要的结果:图式不仅用于生成新颖的结构,还用于支持储存的项目,称之为图式的关系功能。在传统方法里,规则只发挥生成作用,而关系作用很少提到。PA认为这两种功能都可以由单个模式执行,正如在复数中看到的那样。 此外,许多图式只能在关系角色中使用,也就是说,必须列出它们的所以实例。此类图式会导致非生产性模型,例如sing/sang。因此这种非生产性模式和生产性模式在形式上没有本质区别——只是它们是否可以生成的使用。 综上所述,扩展词典是一个统一的系统,不仅储存单词,还储存习语、搭配和图式。图式用与单词相同的属于来表述,即作为语言结构的各个部分——语义、句法、音系,并在适当的情况下通过interface link链接。(图式=语法规则?)它们和单词不同之处在于它们具有在构建话语时必须实例化的变量。 虽然PA和传统的生成语法有很大的不同,但它的语法和储存表征的方法与当代基于使用的方法非常一致。这种方法的一大优点是单词和模式以允许统一的通用格式储存。PA认为这些语言结构是在大脑中实例化的。这些语言结构不仅包括语音、语法、语义,还包括将词汇项联系在一起的interface link和关系链接。因此,扩展词汇——实际上也就是语言知识——被认为是大脑中一个丰富互联的网络。
  3. 超越语言 支持PA语言方法的一个重要原因是它提供了语言与其他认知能力之间关系的自然说明。PA形式注意提供了一种可能性:将语言表征层面相互链接的相同基本机制也将语言和其他认知领域链接起来,并且还将其他认知领域相互链接起来。同时,把语言组件删去,我们就能够获得非人类灵长动物的架构。这些是PA相对其其他语言能力架构的重要整体优势,特别是相对于那些句法结构是组合性唯一来源的架构。
  4. 有关处理的标准假设 第一节中列出了一些心理语言学理论的标准原则,作者在PA的背景下详细阐述它们。 一个重要的原则是,语言理解涉及两个组成部分:词汇通达和整合。词汇通达中,传入的语音输入激活词典中相同(或者足够相似)的语音片段。这些片段将激活传递给词典中的相应结构——句法结构和语义结构。从PA的角度看,这种激活的传输专门通过存储在词典中的interface link进行。在整合过程中,处理器尝试将处理器尝试将access的结构与当前的假设或基于先前输入建立的语法和语义的假设相结合。作者在这里只关注处理的词汇通达部分——即激活“所听到的”候选词。 词汇激活的一个基本特征是频率的很大的作用:较频繁的项目比没那么频繁的项目激活得更快/更强烈。与大多数学者一致,作者将语料库中某个项目的频率作为其在大脑中“静息激活”"词汇强度"的代理——它对传入激活做出反应的准备程度。在通常的假设下,任何单词的使用都会增强其静息激活,更频繁遇到的项目将具有更高的静息激活。因此,他对随后的激活产生更加活跃的反应,并且能够在“what is being heard”方面超越其他的候选项目。 作者假设处理过程是机会主义的或渐进的,即语音、句法、语义信息只要可用就可以使用。此外,根据“视觉世界范式”证据一致,即使是视觉信息也可以用于句法分析,从PA的角度看,这再次相当于通过interface link传递记过,这次是从视觉/空间表征级别到语义结构。 需要注意的是通过interface link传递激活仍然需要时间,这会影响处理的整体时间进程。例如,在理解中,一个单词不能将激活传播到语义关联词,直到它自己的语义通过其interface link被其音系激活。 作者进一步假设处理是混杂的,即词汇识别、句法解析、语义解释很可能是并行处理的。这些可能性通过静息激活、与输入的相似性以及启动,互相竞争“what is being heard”。 作者还提出了一些对语言理解的特征的改进:首先,作者假设第一次听到的项目储存有一些初始的静息激活,其强度可能受到新闻价值或fashion等因素的调节。其次,对于及其频繁的项目,其惊喜激活也不应该是无限制的增加,根据渐进学习的解释,作者提出项目的增强会渐进地将其静息激活提高到上限。频繁接触地物体只会在不知不觉中因进一步接触而得到提升,而很少遇到的物品,具有较低的静息激活,则获得更显著的提升。(这种说法与“增强联系最终会导致效果逐渐变小的说法一致”)。第三,作者假设静息激活随着不使用而缓慢减少;如果它低于某个阈值,该词汇项就会有效地被遗忘(似乎非常之有道理)。第四,作者认为大脑本质上是一个嘈杂的计算环境,因此“静息激活”实际上代表了活动随时间的随机分布。大脑中噪音的存在就是为什么任何心理实验都需要大量的被试,在语言产生中,它是言语错误的根源。 作者架设了一个阈值,低于该激活阈值的潜在假设无法达到候选状态,只有它们的激活足以从噪音中脱颖而出的时候,项目才能获得候选资格。
  5. 项目间的预激活 心理语言学的另一个标准假设是:由于语义网络中习得的关联或概念之间重叠的语义特征,词汇项的激活会传播到相似或相关的项,常被称为“语义启动”。 PA能够使我们更加精准,因为他有一个特定的hook来识别传播激活的位置和幅度:活动通过项目之间的关系链接传播,在三个表征级别或任何一个上。从一个项目传播到另一个项目的活动强度不仅取决于“donor”项目的激活水平,还取决于相关项目的关联程度。例如,与相关性不太密切的对malice/malicious相比,语音关系相对明显的对joy/joyous之间会传播更多的激活。类似的,在语义平面上,king对queen传播的激活肯定就比mailman传播的激活更多,因为它和邮递员共享的语义特征少得多并且没有语音特征。 激活也可以在仅形态相关的项目中传播(即语音和句法上相关,但不是语义上),如recite/recital,甚至能仅在语音上相关的项目上传播,如broth/brother。 此外激活还可以仅在关联/语义关系的基础上传播,例如名词“chair”的部分含义是它的功能是“sit”,尽管缺乏语音和句法相似性,但预计它会由动词sit引发并被引发。例如听到/tfer/,记过词典中的音系,随后通过interface link传递到语义chair上(也许被称为自下而上),从这里开始,激活就通过与语义SIT的关系链接水平传播,SIT反过来通过其interface link 自上而下将激活传递到音系/sit/,使其更容易受到后续输入的激活。这是唯一的路径,/tfer/无法直接激活/sit/。这种解释超越了逐字地语义启动,扩展到了更广泛意义上地启动。(确实丰富了整个过程) PA的扩展词典将习语、搭配和图式等和单词同样地储存,这些都是语言结构地片段,都有interface link。处理地结果是词汇激活和词汇通达地所有原则都应该像应用于单词一样应用于这些项目。 传统解释里认为,词汇和语法是不同的,而PA不这么认为。将静息激活的概念与图式作为词汇项的状态放在一起,我们可以得出,更频繁的句法图式(例如更频繁的句法结构)具有更高的静息激活,使得他们在理解和产出方面的反应更稳健。 激活不仅在一个单词和单词之间传播,还可以在一个单词和它所属的图式之间传播。PA认为widen是通过其内部结构进行储存的。激活它会将激活传播到wide这个单词以及支持widen、broaden、harden等模式的图式,这些激活强化了widen自身的激活,增加了处理器对此“听到的单词”的承诺,因此判断更快/稳健。那么当其他条件相同时,像widen这类双语素词就比像lizard这样的单词素的词具有处理优势。PA有一个重要的创新,即对scrumptious这类词,它在非词上加了一个合法后缀,那么像scrumptious应该从词缀图式中得到一些提升,但scrumpt-的词典没有任何内容,所以这种情况的难度应该介于“widen”和“lizard”之间。但这个预测未检验过,可以试试。 基于这种处理概念,各种启动都相当于激活的瞬时增强。但启动有一个不同的来源就是identity priming(重复启动),当激活的词汇项目没有立即恢复到静息水平,就会发生这种情况,因此在一段时间内重新激活它需要较少的“能量”。同时,不止发生在词里,例如widen提供的-en词缀的启动。同时,句法短语的结构模式也是PA中储存的词汇项,因此也可以引发重复启动。 目前很多的启动效应都可以用PA解释。
  6. 项目内预激活 基本假设非常简单:当输入中只有一个词汇项的部分出现时,该项的其余部分已经被激活,因此,它构成输入继续时将会发生的情况的预测。 为了更详细描述项目内预激活:假设在某个时间点,正在进行的输入到目前为止仅为词汇项的初始部分匹配(称为incipit)。激活incipit也会自动预先激活词汇项的其余部分,称这部分为remainder。remainder的内容尚未听到,相当于对输入中即将到来的内容的预测。因此,项内预测的形式是一种语言结构,它是由词汇通达的正常过程生成的,只是词汇激活领先于输入。也就是说预测一直在进行,因为预测的生成是处理的自然副产品 6.1两个例子来认识项目内预激活 当听见/kap/,通过interface link激活语义CAP,然后CAP把激活水平传播给语义关联HAT,随后激活/hat/。 但是激活是混杂的,输入/kap/,同时也会激活其他词汇项目的音系,例如captain、capitalism等,其中/kap/充当incipit 那么即使/ten/ /talism/等没有被听到,他们也会被预激活,并且单词的完整音系激活了它们的语义。这些又会通过水平箭头将激活传播到它们的语义关联,如下图

    2023-10-15-YXY-Fig3

    。 最后语义关联通过link激活自己的音系,因此预激活的音系片段们,以及语义们就构成了对未来的相互竞争的预测。 而竞争的项目会受到环境的影响,例如如果输入的/kap/前面有wear a,那么cap将在语义上启动,但会牺牲掉其他竞争对手以及它们的预测。或者如果确实是captain,那么这个就会被进一步激活,而其他候选人及其预测就会被抑制。 第二个例子就更接近实验室任务,例如当我们听到一个句子的开头: she put salt and…,那么更可能预测会出现she put salt and pepper on the eggs 而不是别的结构。作者详细解释了原因。见原文。 6.2 那么预测的内容到底有多大?例如当听到She put的时候,实际上我们无法预测下一个单词。然而动词put确实预示着它后面会跟着一个NP和表位置的PP,无论这些单词由什么组成。这种句法预测源自于put的词汇条目。也就是说,这也是一种项目内预测,只是不是预测的下一个词是什么。当输入遇到/put/时,它不仅激活发音为/put/的动词(充当incipit),还激活句法变量NP和PP(一起充当remainder)。但没有语音预测,构成NP和PP的特定单词尚未制定。 假设输入结果是she put salt yesterday,那么PP就缺失了,因此remainder和实际输入冲突了。由于动词对PP的需求是必要的,所以该句子被判为不合语法。 同时,作者认为,fly a/an 这类研究,就是完全基于语音的预激活。a、an在语义和句法上相同,但是音系/e/后面跟着可变辅音C,因此预测C,/an/跟着可变元音V,因此预测V。(不太对吧…..) 而像图式的预测往往是不确定的,就像听到if我们首先预测一个长度未定的子句,可选地后跟then,再加上另一个子句。意思就是强调了语法规则的预测而非词的预测。当我们听到了the时,我们激活了什么? 总之,预测体现在所有的尺度上,从下一个单词到更小和更大的结构,以及相对具体或更抽象的结构上。预激活理论任务,人们确实经常预测即将出现的单词,但只有在需要做出预测的情况下,即当有一个或多个预激活的候选词时。
  7. 预激活理论与语言处理中预测的概率解释有何关系? 许多方法都认为预测具有一定的概率,处理器正在对冲其赌注。贝叶斯统计决策理论任务,语言处理是最优的/理性的。同样,信息论方法评估语言现象的信息性(或惊讶性)。根据这些方法,语言使用者利用过去的语言经验的概率知识来预测当前/即将到来的语言结构的概率。 作者认为PA可以和这些方法相互翻译,差异并不大,通过对候选者之间总激活程度进行归一化,可以将其重新解释为概率。 *那么在我的研究里:语境和名词,到底哪个对量词的促进作用更大?
  8. 听到/jia shi/1,激活会沿着link传播到其语义DRIVE(mostly a vehicle)1及其句法V1,然后通过语义的关系链接激活CAR2,而/CAR/2通过link把激活传播到/kar/2和N2
  9. 听到/jiashi/1,激活这种图式 V NP CL* 作者认为,PA理论中的预测就是指incipit的多种可能的延续,互相竞争着成为“what is heard”。 如果没有强有力的替代预测,就像Today the…,那么处理既不会得到增强,也不会受到抑制。 那么采用这种预激活解释有什么好处?优势1:并行架构对各个表征级别的语言结构和语言预测的明确描述。这个解释扩展到所有尺度,从单词内部到长距离依赖和其他抽象句法结构。优势2:预激活解释提出,预测不仅受到项目内激活的调节,而且还受到相关项目的静息激活、重复或联系启动以及其他候选者竞争的活动的调节。对语言结构的明确描述使理论能够认识到这种来源的多样性。优势3:并行架构可以被认为是计算分析水平的实现,因为它描述了语言能力计算和储存的心理表征。 作者认为,同时发挥作用的remainder在以下方面不同:a.它们所属项目的静息激活程度不同b.预激活的强度不同,包括重复启动、语义启动和语境启动c.竞争remainder的数量和强度。

最重要的是PA 1. 并行架构的扩展词典不仅包含单词,还包括了搭配、习语、有意义的结构和模式等,后者取代了传统的规则。2. 激活以结构化的方式传播,遵循着PA的interface link和关系链接。它统一了cohort effect(eg.captain)、单词和搭配预测(salt and…)以及结构预测(if S then S).该理论又给予了语音、句法、语义同等的重视,并以扩展词典中的通用格式进行编码