文献:Fitch, W. T., & Hauser, M. D. (2004). Computational constraints on syntactic processing in a nonhuman primate. Science, 303(5656), 377-380. https://doi.org/10.1126/science.1089401

论文原文 ¶

1. 研究背景 ¶

从有限的元素集合中产生无限的有意义的表达的能力将人类语言与其他动物交流系统区分开来。语言能力的进化可能包含了一些祖先灵长类动物的认知能力。能够生成无限输出的规则系统(“语法”)在生成能力方面各不相同，最弱的组织规则仅限于邻近的单位。本研究使用相同/不同的范式来证明猴子可以自发地掌握这样的语法。然而，人类语言需要更复杂的语法，包括层次结构。用同样的方法、音节和序列长度测试的猴子无法掌握更高层次的语法，即“短语结构语法”。语言能力的进化可能包含了一些祖先灵长类动物的认知能力。因此，分层处理是否是这些预先存在的能力之一，也许是进化来服务于非交流功能(例如，运动控制、数字或社会认知)。

组成无限句子的规则系统被排列成一个称为乔姆斯基等级体系，其中最弱的等级是finite state grammars (FSGs)，这可以由有限数量的词之间的转移概率来决定。最近的证据表明，人类婴儿和非人灵长类动物都可以自发地完成这种表层复杂的解析过程。但是，FSGs不足以生成任何人类语言的所有结构，因为所有语言都至少需要下一个级别的过程，也就是短语结构（PSGs）。除了像FSG的连接项目之外，PSG还可以将字符串嵌入到其他字符串中，从而创建复杂的“短语结构”和远距离依赖。例如，在英语中，单词“if”通常后跟单词“then”，但是可以在它们之间插入任意数量的单词或短语。

2. 本研究 ¶

PSG结构需要更复杂的解析能力，包括识别这些结构的感知能力和存储它们记忆能力。语言学和机器学习领域有一个广泛的共识，即PSG比FSG更强大，并且FSG级别以上的语法至少是所有人类语言的重要组成部分。虽然所有正常人都有这种能力，但目前还不知道非人动物是否有高于FSG水平的解析能力，本研究通过棉顶绢毛猴（cotton-top tamarins）进行相同或不相同实验范式来探究这个问题，棉顶绢毛猴属于一种灵长类动物，之前有研究表明它能够根据语言刺激的节律以及掌握语音刺激中隐含的过渡概率和抽象规则的能力进行辨别。

语法的无限性使得对PSG理解能力的测试较困难，因为PSG的有限输出总是可以近似于更复杂的FSG，所以很难最终证明受试者已经习得了前者。但是，未能掌握语法(如未能区分合乎语法的字符串)可以从经验上得到证实。基于乔姆斯基最初的讨论创建了两个语法，生成由辅音-元音(CV)音节组成的无意义听觉字符串。先前的研究表明，绢毛猴无需训练就能容易地注意和处理这样的音节语音流。为了区分它们在生成层次短语结构的能力上的不同，设计这两种语法在无关的非语法变量上都相同。

下图展示了刺激物和相同不同辨别范式，A图展示了FSG和PSG刺激的例子，语法在长度、成分、响度和其他声学特征方面是匹配的，并且两种语法在测试和评估的程序是相同的。A类和B类刺激是由不同的人说的，一个是女性(用粗体表示)，一个是男性(正常字体)。每一种语法都从两类声音中组成结构，A和B，每一类都由八个不同的CV音节代表(Audio 1 to 8)。任何给定的字符串都是从每个类中随机选择特定的音节。FSG是(AB)n，其中一个随机的“A”音节总是跟随着一个随机的“B”音节，这样的一对重复n次。相应的PSG，称为AnBn，在这个语法中，n个连续的“A”音节后面必须紧跟着n个“B”音节。选择AnBn语法是因为它是最简单的PSG，原则上不能与FSG近似，但可以很容易地在所有非语法方面与简单的FSG对应，这也是实验所要求的。并且，该PSG通过使我们关注系统的生成能力而不引入无关的变量(例如，记忆容量)，为该研究解决的经验问题提供了理想的语法。B图，实验通过评估视频中猴子对刺激的反应(“看”或“不看”)以及对刺激特性的盲目，量化了棉顶绢毛猴对刺激的倾向性。这些刺激要么符合要么违反先前熟悉字符串中隐含的规则。

尽管这些语法理论上都可以生成无限长的无限数量的字符串，但内存的限制将会限制受试者解析字符串的实际能力，因为以前的工作表明，绢毛猴可以很容易地记住并准确地区分长达三个音节的字符串，所以我们在上述两种语法中都将n限制为2或3。每种语法生成64个随机字符串，其中60个用于实验，4个不同的字符串用于测试。

将绢毛猴随机分成两组，每组包括不同性别和年龄(都成年)，每组一个语法。在晚上，特定组的所有猴子在一个笼子里同时被暴露在20min内以随机方式重复播放语法一致的不同的字符串，第二天早上他们在一个声音室中接受单独测试。测试从再熟悉阶段开始，当动物被喂食食物时，前一天晚上的随机刺激再次回放2分钟，然后关闭声音室门，开始视频监控和记录，并开始回放测试刺激。测试期间不提供食物。随后根据视频对看的潜伏期和持续时间(朝向扬声器的方向，图1B)进行盲评。每只猴子(不考虑它们之前训练的语法类型)都以随机的顺序接受了同样的八种刺激。四个是与训练语法一致的新刺激，而另外四个是与之前训练的语法类型不一致的刺激。

3. 结果 ¶

结果是绢毛猴很轻易地就掌握了FSG，表现在它们对违反语法规则的刺激的关注显著增加(N=10只猴子，平均72%看向违规刺激，34%看向语法一致的新刺激），如下图2所示。在个体水平上，10只猴子中有9只看的更多的是违规而不是一致的刺激。因此，表明遵循相似模式的新刺激比违反它的新刺激引起的注意少。这表明，区分两个音节类别的声学线索对绢毛猴受试来说是显著的。更重要的是，在没有任何明确训练的情况下，学习声学序列构建规则的能力表明，绢毛猴对声学流中的规则很敏感，可以识别与过去输入模式一致的新字符串。这一发现与之前的研究一致，之前有研究表明无论是否经过训练，猴子都能够发现控制听觉和视觉刺激序列模式的规则。

相比之下，绢毛猴未能掌握PSG，对一致和不一致的字符串模式表现出类似的看的频率(N=10只猴子，29%看向不一致，31%看向一致的刺激；图2)。个体水平上也没有一只猴子看了超过一半的不一致模式。未能掌握PSG不能归因于外部因素，如刺激长度、响度等他声学因素以及无法感知A类和B类；或者暴露、测试或评估过程中的差异，这些在两种语法之间是一致的。如果绢毛猴试图通过构建FSG结构(基于简单的转移概率)来解析PSG字符串，那么结果就与预期一致。因此，绢毛猴似乎在自发学习这种类型的规则方面有困难，尽管它们在除了等级结构之外的每个方面都表现出掌握FSGs同样的能力。

对这些结果的另一种可能解释是，绢毛猴没有通过PSG测试是因为它们区分连续项目的能力仅限于两个项目。但是这个结果不能解释它能编码AB AB AB模式，但不能处理AAA BBB。他们进一步分析了当n限制为2时，绢毛猴在FSG语法中清楚地区分了不同和一致刺激，但在PSG中未能区分。因此这些数据都与这个可能的解释不符合。

如上图2所示，接受相同语法测试的成年人表现出对所有语法都能快速学习（暴露时间不到3min），并且能快速区分一致不一致的语法刺激。受试在FSG上的正确率为93%,在PSG上的正确率为85%,这表明，在猴子在PSG上失败的相同实验条件下，成年人可以很容易地区分和掌握任何一种语法。这些数据与其他实验发现一致，即人类可以学习PSG，并且似乎更喜欢短语结构的输入，并且与广泛接受的理论主张一致，即人类语言需要在PSG水平上习得规则系统。

4. 讨论 ¶

这些结果表明，尽管明显有能力处理声学序列中的顺序规则，但绢毛猴不能处理简单的短语结构，即序列中的一部分的组件与远处的其他组件相关。因为之前使用相同范式对这一物种进行的工作表明，这些动物完全能够存储和回忆至少三个单独的刺激，并将它们与随后的字符串进行比较，所以这种计算限制不是由记忆、注意力或数字辨别的一些较低水平的限制造成的。在对非人灵长类动物的在这一方面的局限性得出广泛的结论之前，有必要使用其他方法(如训练和强化)、不同的语法和其他物种(如猿)开展进一步的工作。正如先前对灵长类听觉感知的研究所表明的那样，过度依赖刺激的表面特征阻止了绢毛猴感知信号中更抽象的关系。人类高度发达的层级处理能力的进化有利于认知的许多方面(例如，空间导航、工具使用或社会认知)，同时这种能力也是掌握人类任何语言的关键要素之一。因此，等级处理能力可能代表了人类语言能力进化的一个关键点。