文献:Dehaene, S., Meyniel, F., Wacongne, C., Wang, L., & Pallier, C. (2015). The neural representation of sequences: from transition probabilities to algebraic patterns and linguistic trees. Neuron, 88(1), 2-19. http://dx.doi.org/10.1016/j.neuron.2015.09.019
1. 引言 ¶
一系列的图像、声音或文字可以存储在不同的细节层次上,从具体的项目和时间到抽象的结构。研究为序列编码提出了五种不同的大脑机制的分类法:转换和计时知识、组块、序数知识、代数模式和嵌套树结构。并回顾了每一个按案例可用的实验范式,并列出了相关系统的行为和神经特征。树状结构需要一种特定的递归神经代码,这种代码尚未被电生理学所识别,可能是人类独有的,这可以解释人类语言和认知的独特性。
早在20世纪50年代,卡尔·拉施里就认为序列顺序问题是行为和神经科学应该解决的紧迫问题之一(Lashley, 1951)。即大脑如何对项目的时间序列进行编码,以便这些知识可以用来从记忆中检索一个序列,识别它,预测即将到来的项目,并将这些知识推广到具有类似结构的新序列?
拉施里注意到,语言感知和产生,以及鸟的歌声或老鼠的空间导航行为,给当时占主导地位的联想链观点带来了特殊的问题。 人类和其他动物不会简单地将每个连续的项目与特定延迟的下一个项目联系起来,但他们也掌握抽象的多项目顺序结构,这种能力在人类语言中最为明显。
六十年的语言学分析已经证实,语言的准确表达需要嵌套树形结构的假设(Chomsky, 1956),并且,行为和神经生理学对更简单的范例的分析,包括音调或手势的序列,揭示了一系列丰富的反应,远远超出了简单的联想链(Restle, 1970; Restle and Brown, 1970)。本文的目的是回顾这些行为和神经的发现,并提供一个大脑机制的最小分类法,任何精确的序列处理模型都应该效仿。本文认为,有证据表明至少有五个不同的系统能够以不断增加的抽象程度来表示序列知识。
2. 转换和计时知识 ¶
许多动物物种能够表示感觉或运动事件之间的时间间隔,并在简单的计算中使用这些时间表示。时间选择任务被用来研究老鼠和人类的时间和概率计算(Balci et al., 2009; Kheifets and Gallistel, 2012)。两个事件中的一个可能发生:在试验开始后3s,奖励左手柄按压;或者,在试验开始后9s,奖励右手柄按压。受试很快学会调整他们的预期,首先转向左边的杠杆,然后如果什么也没发生,就转向右边的杠杆。结果表明,老鼠和人类近乎最优地调整了他们转换杠杆后的持续时间,同时考虑了强加的时间延迟和最有可能发生事件的内部和外部不确定性。因为行为转变发生在一个大致固定的延迟之后,而这个延迟并不是由任何感官事件引起的,这意味着有机体必须保持一个对流逝时间的内部表征,并将其决策建立在预期事件的流逝时间和记忆时间的比较基础上。这个和许多其他类似的范例暗示了时间是动物可以计算的维度之一(Gallistel, 1990)。
这种表征的一个特征是它的近似性质,受标量变化的影响,也称为韦伯定律(Gibbon, 1977; Gibbon et al., 1997):延迟编码的不精确性(标准偏差)与其持续时间成正比,因此越来越长的延迟表现为成比例的更大可变性。例如,听觉oddball范例,其中以规则的间隔呈现一系列可再现的听觉刺激,当一种刺激意外地被另一种代替时,大脑会发出不匹配的反应 (MMR);并且当预期的刺激省略时,也观察到了类似的反应,约在刺激应该发生的时候达到峰值。证明了感觉回路可以在没有任何感觉输入的情况下,纯粹在对预期事件的预期中,内在化规则序列的定时并产生内源性反应。
时序编码是自动的,即使在昏迷、植物人状态或入睡时没有注意力、意识不到变化,甚至没有任何意识,MMR反应也会继续发出(Bekinschtein et al., 2009; Strauss et al., 2015)。精确定时的神经元反应,包括错配和遗漏反应,也已经在许多其他模式中观察到,例如,在早期视觉皮层和下颞叶皮层中的视觉刺激,在运动前皮层和基底神经节中的动作序列,以及在多巴胺神经元中的预期奖励。因此,编码时间知识的神经机制很可能在几个自动并行运行的大脑回路中被复制。已经提出了至少两种产生MMRs的神经机制:刺激特异性适应(SSA)和预测编码。SSA反映了众所周知的事实,即感觉反应往往会随着时间的推移而习惯化,例如由刺激引起的神经生理反应会随着重复而降低,当出现新的刺激时会恢复。预测编码是这样一种理论,即皮层回路形成输入序列的内部模型,主动生成对即将到来的项目的预测,并与传入的刺激对抗。根据这一观点,MMRs反映了预测误差(即预测和现实之间的差异)(Friston,2005)。
虽然SSA无疑促成了oddball范式(May和Tiitinen,2010),但适应不能完全解释所有的不匹配效应。它未能正确解释由遗漏、低振幅刺激或交替刺激诱发的MMRs。在后一种范式中,两个刺激A和B以固定的间隔有规律地交替出现:ABABA(图2B),当这种规律性偶尔被刺激重复(如AA)破坏时,就会观察到MMR,尽管SSA单独应该预测对重复刺激的诱发反应的进一步降低。假设这个信号反映了对交替刺激的主动期望的违反,结果可以得到更好的解释。视觉模式中的类似发现表明,通常归因于“重复抑制”的大部分事实上可能来自预测及其违反。这些发现表明,预测编码在各种感觉皮层中普遍存在。
Wacongne等人(2012)提出了预测编码和错配检测的脉冲神经元模型。该模型提出,对刺激身份的给定方面(例如,听觉音高)敏感的皮质区域学习预测编码模型,该模型使用最近过去的时间窗来生成对未来的预期。特征是(1)精确定时的神经元放电,(2)服从韦伯定律,以及(3)当预期的事件序列被违反时,发出错配或遗漏反应。这种机制似乎在许多皮层和皮层下回路中被复制。
3. 组块 ¶
“组块”可以被定义为作为一个整体频繁出现的一组连续的项目,并且因此被神经系统有效地编码为一个单元。 有证据表明,时间组块发生在一种简单的称为“局部-整体范式”的听觉oddball范式中,受试者被呈现aaaab类型的序列,其中前四个音调是相同的,而第五个声音是不同的。在人类的脑电图和颅内记录中,最后一个声音的异常最初会导致一系列的电位:首先是MMR,然后是后来令人惊讶地诱发的P3b波。然而,重复听到相同的aaaab序列会导致这些成分的急剧减少。有趣的是,MMR仍然存在,证实了这一部分反映了对局部转移概率的肤浅和自动的反应,没有考虑整体的可预测性。然而,P3B消失了,这表明,在某种程度上,“整体”序列被记住了,包括对第五个音调将会不同的预期。这种解释可以通过展示由五个相同音调组成的罕见异常来证实aaaaa:P3b波立即重新出现。这种机制的特征与简单的转移概率学习明显不同。第一,比较慢:早(~100-200ms)事件相关电位(如MMR)是短暂的,主要受局部转移概率的影响,通常还需要100-200ms,整体背景的影响才会以持续稳定的方式出现(King et al., 2014)。第二,这种效应不再是自动的:当受试者被视觉任务分散注意力、睡着或无意识时,这种效应基本上消失了。第三,它来自一组分布的区域,包括次级听觉皮层;颞上沟;额下回(IFG);以及背外侧前额叶、顶内、前和后扣带皮质。
一个更简单的范例已经被用来具体演示语音流的组块及其在单词获取中的中心作用(Saffran et al., 1996),在这个范例中,受试者被暴露于连续的音节听觉流,例如“tokibugikobagopilagikoba”。音节形成类似于单词的三个音节的重复组(例如,“gikoba”和“tokibu”)。在暴露于这样的音流中2分钟后,即使是8个月大的婴儿也表现出组块的迹象:在后测试中,他们对与原始单词相对应的三音节刺激的注意力要少于对类似刺激的注意力,这些刺激是相同音节的随机排列,或者是一个单词的结尾跟着另一个单词的开头(Saffran et al., 1996)。成人的事件相关电位表明,在训练后,在原始音节频率的三分之一处出现左侧化节奏,对应于单词呈现频率,这表明该语流现在被解析为三音节组块,功能磁共振成像研究表明,这种组块来自左侧颞平面和/或左侧IFG(Karuza et al., 2013; Tremblay et al., 2013)。
Saffran等人(1996年)的研究结果可以用转换概率统计学习来解释。然而,Graf Estes等人(2007)提供了三音节词块作为不同单位提取的直接证据。在这项实验中,与未暴露的三音节单词串相比,暴露于三音节单词序列的17个月大的婴儿后来显示出快速获得这些单词与视觉对象的语义关联的证据。显然,提取的词块在儿童的心理词典中成为词汇条目。Saffran和Wilson(2003)同样证明了组块单词可以进入高阶学习过程:12个月大的婴儿获得了这些单词之间的转换概率,这意味着它们被编码为独立的实体。事实上,组块被认为是儿童识别连续语音流中单词的主要机制之一(Hay et al., 2011)。
类似的机制似乎在视觉和运动领域发挥作用,允许人类成年人(Orban等人,2008年)、婴儿(Bulf等人,2011年)和狒狒(Minier等人,2015年)对视觉形状、位置或动作的空间或时间组进行组块。Orban等人(2008)描述了一种贝叶斯学习机制,能够发现捕捉常规视觉场景的最小组块集,他们提供了强有力的行为证据,表明这种机制可以被人类使用。有趣的是,Bor等人(2003)观察到,每当一系列视觉位置可以被分成形成熟悉形状(如正方形)的子集时,就会出现强烈的双侧IFG激活,并且在相关的范式中也进行了类似的观察(Schapiro等人,2013)。
在单细胞水平上,组块主要是在获得运动习惯的背景下进行研究的,在获取熟悉的运动序列的过程中,PFC和基底神经节中的单个神经元会显著改变它们的放电模式:它们最初会对序列中的每个动作发出可重复的尖峰脉冲,但最终只会对第一个和最后一个项目放电,从而发出组块边界的信号。因此,这些数据证实了组块的神经生理学现实,但还没有表明神经元是否以及如何被分配给整个组块的编码。人类的功能磁共振成像表明,在行动计划中,组块可能是有层次的,导致“组块”的形成,涉及越来越多的前额叶区域。总之,第二个序列表示机制是将频繁出现的项目组合成一个“块”,然后可以作为一个更高级别的单元来操作。组块形成的精确神经机制仍然未知,可能广泛分布于多个皮层区域,但包括用于人类听觉组块的额下回和颞上区以及用于运动组块的额/基底神经节环路。
4. 序数知识 ¶
过渡时间和组块机制只能识别特定的旋律或单词及其违规行为,事实上,相应的实验范例通常不评估所涉及的序列表示的抽象程度,以及是否提取了多个序列共有的抽象特征。然而,其他范式提供了直接证据,证明人类和非人类灵长类动物提取了至少一个这样的特征:顺序知识,即不管这些事件何时出现,哪个事件先出现、第二个出现或第三个出现的表征。顺序系统从特定的时间信息中抽象出来,只对相对的时间顺序进行编码。在许多自然情况下,事件计时是固定的和可预测的(例如,当一个物体从一定高度坠落时),但也有同样多的情况下,只可能预测某事将发生,甚至多少事件将发生,而不知道何时发生(例如,当一个或多个捕食者藏在树后)。背外侧前额叶和顶内皮层的神经生理学记录揭示了序数的神经代码,Ninokura等人(2004)观察到,多达44%的前额叶神经元被调整到列表中的连续位置,从而完全基于顺序信息对完全不同的形状做出相同的反应。
5. 代数模式 ¶
更抽象的图式的心理表征,称为“代数模式”,它捕捉连续刺激或刺激类别之间的关系。例如,考虑一个7个月大的婴儿在听一系列音节,如“totobu”、“mimika”、“paparo”等。即使是几分钟这样的暴露也足以让婴儿认识到所有这样的序列都遵循一种类似的模式,这种模式可以称为AAB。因此,婴儿对连续声音之间的身份关系很敏感,而不管它们的具体身份。当这种模式被打破时,例如被一件ABB产品打破时,婴儿会以更长的注视时间做出反应,这表明已经察觉到了变化(Marcus, 2001; Marcus et al., 1999)。这表明,婴儿使用相同/不同的概念对传入的音节进行分类,并理解前两个音节总是相同的。Marcus引入了术语“代数模式”来指代一个抽象模式(如AAB),该模式捕捉了几个特定序列(如aab、ccd等)背后的规律性。
非人类的灵长类动物似乎也有代数级的表示,这并不是说这种抽象知识在人类和非人类的大脑中编码完全相同。代数模式引起人们极大兴趣的原因是,它们可以为语言、音乐、数学和人类其他特殊能力领域中存在的模式类型提供一个模型域。第四级序列表征的特点是能够从序列项目的特定身份和时间中抽象出来,并掌握它们的一般潜在模式。这一水平的主要标志是概括新项目的行为能力和PFC神经元对抽象模式的神经生理学调节。据我们所知,没有公认的神经网络机制来实现这种抽象编码,因为所有当前的神经网络提议似乎都过于局限于考虑人类抽象规则提取能力。
6. 嵌套树形结构 ¶
转换时间、组块、数字和代数模式是否足以解释最高级的序列处理形式,即语言?大多数语言学家认为,人类的语言能力意味着额外的嵌套树状结构能力(Chomsky, 1956)。‘‘black taxi driver.’’可以解析为‘‘black 丨taxi driver.’’或者‘‘black taxi 丨driver’’,而仅包括“扁平”序列结构的系统中是不可能表达这种模糊性的,例如单词之间或者甚至单词类别之间的转移概率。虽然语言树背后的神经代码仍不为人知,但相关的大脑区域已开始定位。超过一个世纪的损伤研究和20年的脑成像已经描绘了用于句子理解的左侧化区域网络,主要涉及左侧颞上沟(STS)、颞中回(MTG)、颞极(TP)、颞顶结合部(TPJ),尤其是左侧额下回或“布罗卡区”(包括Brodmann区域[BA] 44和45)。人类IFG(BA 44)对规律非常敏感,从简单到复杂的树形结构规律。
尚需探讨的有趣主题是,对嵌套结构的捕捉是否是人类所独有的,虽然已经正式非人类灵长类动物可以学会监测听觉序列中中某些抽象特征(代数),但并不包括嵌套规则的结构,早期的行为实验表明,绢毛猴不能掌握A[A[AB]B]B类型的嵌入中心的嵌套树结构,而它们成功地学习了非嵌套的成对结构AB AB(Fitch and Hauser, 2004)。而最近,一些研究人员声称猕猴甚至鸣禽可以编码这种嵌套结构(Abe and Watanabe, 2011; Gentner et al., 2006),然而,这些主张一直备受争议,理由是范式未能包括足够抽象的概括项目,并且行为实际上是由转移概率和转移模式的更简单的非递归表示所驱动的。
这一结论,如果得到证实,将与神经科学证据相吻合,该证据表明(1)支配语言的区域,包括人类IFG、颞上皮层、顶下皮层和潜在白质,已经扩大并显示出人类大脑半球更大的不对称性;(2)IFG显示了人类特有的与上颞区(Neubert等人,2014年)和下顶区(Mantini等人,2013年)的功能连接,这在猕猴中没有观察到;(3)在2个月大的婴儿中,当他们听他们母语中的句子时,IFG和STS在他们传统的成人位置已经是活跃的;4)早期病理,如婴儿期的硫胺素缺乏,可以显著损害句法移动和嵌入的过程。虽然这些证据清楚地表明了语言输入到人类大脑可复制区域的早期和遗传决定的通道,但它并没有最终证明嵌套结构是人类和非人类大脑之间的关键差异——这是进一步研究的重要领域。如语言的组成结构所例示的,嵌套树结构的形成与IFG和pSTS中的识别电路有关。这种代码的一个特征是随着组成成分包括更多的单词,激活越来越强且延迟。然而,这些效应背后的确切神经代码仍然难以捉摸。