1.参考文献 ¶

Hafri, A., & Firestone, C. (2021). The Perception of Relations. Trends in Cognitive Sciences, 25(6), 475-492. https://doi.org/10.1016/j.tics.2021.01.006

论文原文

2.观察和思考对象之间的关系 ¶

看图1A中的图像；你看到了什么？一些物品（两个拼图）、它们的特征（蓝色、哑光、方形）以及它们的位置。然而，除了物品本身，还可能会看到其他东西：这两个拼图可以相互拼合。这就是物品之间的关系，我们如何表征它们？

关系表征触及认知科学的几乎所有角落，包括语言学（如“in”、“on”或“before”等关系术语）、认知发展（如儿童对互动的物体或主体进行推断）、类比推理（把实体从一个领域映射到另一个领域）。然而，在感知研究本身中，它们很少被强调。

另一方面，越来越多的研究表明，我们不止在思考时对这种复杂的关系进行推理，而且还会直接看到它们，就像我们看到形状、运动或颜色等属性一样。在这篇综述中，讨论了关系的几个关键特性，并说明自动视觉加工的具体标准（不同于更高水平的判断或推理）。然后将此框架应用于探索跨领域（包括物理、事件和社会关系）关系感知的实证研究。这种复杂的关系被正确感知，揭示了视觉加工的丰富内容。

3.表征关系：超越空间和大小 ¶

我们可以感知关系是没有争议的。例如，当一个物体看起来有一段距离时，或者当一个刺激看起来比另一个更大、更亮或更蓝时，它们看起来是关系属性。然而，我们探讨的关系类型——大致对应于所谓的“function”或“force-dynamic”关系，可能涉及实体之间的force转移、随时间展开的动态事件，甚至是一种社交参与。此外，这种关系还具有其他几个特征，需要将它们与mind所表征的其他内容区分开来。

a.Relational ¶

猫在垫子上，需要两个物品来说明关系ON。视觉加工以惊人的、相似的方式“填充”关系细节的证据。例如，当mime拉扯“看不见的绳子”或撞到“看不见的墙”时，我们的大脑会自动提供隐含的关系，主动表征可能参与动作的物品。

b.Abstract ¶

关系可以泛化到特定实例、物品类别或特征。例如，图1B描绘了SUPPORT关系中的不同物品：桌子上的书、垫子上的猫和盘子上的饼干。SUPPORT关系是足够抽象的——任何可以被support的物品，与任何可能提共support的物品的任意组合。视觉加工包含这种普遍性的证据：正如两个不同的红色物体可能看起来相似一样，桌子上的书和垫子上的猫在感知上是相似的，尽管涉及不同的物体和低级属性。

c.Categorical ¶

虽然metric是连续的（一个物品可能与另一个物品相距任何距离），但这里考虑的关系通常是“全有或全无”。例如，一个物品可能在另一个物品内部（有），也可能不在（无）；但没有太多中间程度。这种分类表征的证据：尽管INSIDE可能有更好或更坏的例子，但视觉加工在INSIDE和OUTSIDE之间做出了明显的区分。

d.Structured ¶

对于许多关系，“顺序”很重要，例如R(x,y)可能与R(y,x)非常不同。例如，图1C中的两个图像涉及相同的物品和关系（猫、垫子和SUPPORT）。然而，cat-on-mat与mat-on-cat是不同的场景。关系通常被认为是“结构化的”，涉及不可互换的角色（agent与patient）。下面讨论视觉加工遵从这种结构的证据：关系相同但结构不同的关系被认为是不同的。

4.视觉感知的“特征” ¶

我们所看到的与我们所想的、推断、判断或理解的不同。假设在经销商处看到一辆汽车。一方面，可能会知道汽车的颜色、形状或尺寸，因为看到了这些属性。另一方面，可能会了解这辆车的燃油效率如何，它在恶劣天气下的性能如何，或者它可能有多受欢迎；这些属性是判断或推断的。虽然对汽车受欢迎程度的印象很可能是基于它的视觉外观，个体可以使用这些信息来推断受欢迎程度，而不是感知受欢迎程度。那么，这篇综述的核心问题如下：SUPPORT、FIT、CAUSE、CHASE 等关系的加工，是更像颜色感知，还是更像推断它的受欢迎程度呢？

列举几个将视觉感知本身与推理或判断等更高水平的认知过程区分开来的“特征”（参见 [22]）。一般而言，视觉感知显示出大部分或全部特征，而推理则很少或没有这些特征。

a.Speed ¶

感知很快：在极短的加工时间（100-200毫秒）之后，可以看到某个东西是大的、红色的或圆形的。相比之下，确定汽车可以安全应对恶劣天气可能需要持续思考。

b.Automaticity ¶

只要我们睁开眼睛并注视着光线充足的物体，无论我们愿意与否，都会感知到该物体的颜色或形状。相比之下，人们可以在不考虑安全性或燃油率的情况下看汽车，这是“由我们决定”的。这种自动性的一种表现是感知经常侵入其他行为。例如，一束强光可能会引起人们的注意并且不可能被忽视，即使其与任务无关[25]。

c.Stubborn Phenomenology ¶

感知涉及主观上的丰富体验，尤其是当这些体验与显性知识发生冲突时。例如，即使我们知道不是，也会看到一个客观的灰色物体是有颜色的（如色彩幻觉 [26]），即使知道同心环是静止的，也会看到它移动 [27]。显性知识最多可能会导致我们无视或不信任我们的视觉体验——但不会消除它们相关的现象。的确，这种现象证明了感知和认知的区别。

d.对其他视觉过程的影响 ¶

感知是顽固的，感知过程经常相互影响。例如，一个物体的感知距离可以改变它的感知大小：但更高水平的推理或判断可能与其他认知过程相互作用，但它们很少影响感知本身（[28]）。

e.Sensitivity to Subtle Visual Parameters ¶

最后，感知被调整为视觉刺激的参数，因此视觉刺激的极其细微的变化可能会极大地改变感知。例如，两个光盘在三个可能的位置（左、中、右）中并排出现，在左右位置和中间位置闪烁。在短暂的闪光下，中央圆盘似乎是静止的，而另一个圆盘正在“跳过”它。但如果闪光间隔增加几帧，两个圆盘就会同时左右跳动。这种变化的时间点——有10 毫秒的差异——但它产生的感知效果非常可靠。

综合考虑，这些特征将看到视觉属性与对属性进行判断或推理区分开来。如果由视觉输入驱动的过程具有大部分或全部的特征，则它可能反映了视觉感知。认知科学的任务是确定这些特征在区别方面的作用——包括在这里探索的复杂关系。

5.视觉感知中的结构化关系 ¶

本文的其余部分探讨了自动视觉加工如何提取复杂关系的关键特征。回顾三个“核心”领域的证据 [31,32]：物理关系（特别是静态关系，如一个物体在另一个物体上）、事件关系（随着时间的推移而展开，一个物体推、拉或使另一个物体变形）和社会关系（一种特殊的事件关系，涉及主体互动）。

a.Physical Relations ¶

自然场景充满了物理关系：书架上的书、花瓶里的花。其中一些关系在本质上是“空间”的，而另一些则暗示对抗的力量，即使没有任何运动或可见的变化（书架支撑的书）。如何提取这种关系？

某些空间和拓扑关系（内部与外部）可以从极短的曝光（< 50 ms）中识别出来。最近的研究[34]通过对这种关系的“分类感知”，证明了这种加工是自动的并且特定于关系类别本身。被试看到两个圆圈，其关系包括CONTAINMENT、OVERLAP、TOUCH、BESIDE，并按顺序报告看到的运动相同还是不同。被试对分类变化的区别能力得到增强。

物理关系会迅速改变视觉注意力的分配。在50-100毫秒的掩蔽曝光后，可以确定物体在支撑表面上的稳定性 (BALANCE)，甚至可以增强对不稳定模块的检测[38,39]。最近的研究表明，这种表征也推动了视觉检索[40]。如果在B类干扰刺激中搜索刺激A，比在A类干扰刺激中搜索刺激B快，这种“检索不对称性”被认为是将A作为基本视觉特征。这项研究利用检索不对称性来揭示：在稳定物体中找到不稳定物体比在不稳定物体中找到稳定物体更容易。

除了改变注意力在不同对象上的分配方式之外，物理关系还影响对象本身的感知。在最近的一项研究 [42] 中，被试必须在一系列干扰项中识别目标tetromino（俄罗斯方块）。一些干扰项可以进行组合来创建目标，而另一些则不能。令人惊讶的是，与不可组合的对象相比，被试对可组合对象（可以组合创建目标的对象）错误率更高。换句话说，FIT关系是自动计算的。

如前所述，关系的一个标志是它们的普遍性，不同的对象可以有相同的关系；感知对这个属性是否敏感？最近的一项研究要求被试在一系列干扰项中识别目标图像[43]。这些图像是包含containment或support关系的家居用品（篮子中的电话、垃圾桶上的记号笔、杯子里的刀）。有趣的是，被试更容易误报与目标关系类别相同的图像——即使这些图像包含完全不同的对象。例如当检索篮子里的手机时，被试错误地对杯子里的刀做出反应，这表明大脑会自动将这两个图像都视为containment的实例。

b.Eventive Relations ¶

当物理关系变得动态时：物体不仅可以被动地相互包围、支撑或包含，还可以主动地相互推、拉或变形。这样的事件通常有开始、结束，当它们发生时，它们通常会改变对象的位置或状态。这些关系是通过自动视觉加工提取的吗？

对视觉事件的研究至少可以追溯到Michotte的研究 [3,150]。一个圆盘(A)接近另一个圆盘(B)，然后A在B移动时停止，观察者会体验到force从A转移到B，就好像A导致B移动。这在现象学上一直是引人注目的（Gibson [44,45] 和 [4,46] 中的讨论），最近的研究使用现代视觉科学的工具，探索更多更自然的事件，从而丰富了研究。

因果关系可能导致观察者误报相关事件的位置[47]或时间[48,49]；如果事件是因果关系，可能会低估起因与被因之间的距离[50]。因果关系在视觉感知中是有“特权”的：因果事件之间非常细微的差异也可以导致在视觉检索阵列中显着不同的类别感知 [52]。有研究探索了感知的基本特征：视网膜视觉适应，没有更高的认知过程可以证明这种视网膜适应，使其成为这种现象的感知本质的有力的证据（反对基于模式的理论 [54]；另见 [55,56]）

事件关系也可以改变运动加工。当两个物体在附近位置依次出现时，观察者会体验到它们之间的“明显运动”。推断出的运动路径通常是最短的路径；然而，因果事件会扭曲这个过程，产生曲折的运动路径 [59]。因果事件甚至可以凭空产生运动体验：当一个完整的形状（正方形）突然失去一个咬合形状的部分时，观察者将这种突然的变化误认为是渐进的，错误地报告中间帧，就好像他们目睹了“咬”事件本身（“因果历史”的一个例子[60]；还有[61]）。

除了简单刺激之外，观察者还可以感知更丰富、更自然的场景中的事件关系。例如，因果不仅改变了“被咬”的形状的运动感知，而且改变了人物形象之间的动作。此类事件的关系属性也被快速识别 [63-65]：即使在对PUSH、PULL、KICK等关系进行37毫秒的掩蔽后，观察者也会立即提取事件的结构（谁是agent和谁是patient），并识别其类别（执行了什么动作）。

事件关系显示出感知加工的特征。如前所述，二元关系采用R(x,y)形式，其中 R、x、y是必要的组件。最近的一项研究表明，当必要组件没有出现时，大脑会“填充”它们 [66]。演员与物体互动（跑到墙边，踩到盒子上），然后物体（墙/盒子）被移除。没有物体激发了大脑自动表征这些物体，创造出了解释演员行为必需的“隐形”墙或盒子。然后，这些印象促进了对稍后出现的实际物体的反应，就好像大脑被填充的物体“启动”了。换句话说，给定R（IMPEDE）和 x（演员），大脑推断出 y（墙壁）。类似的填充也发生在其他关系元素上。例如，观察者只看到一个事件的前因和后果（将要踢球的脚，然后球在半空中飞），他们会错误地记得看到了撞击本身（在给定x和y的情况下填充R[67]；[68,69]）。

c.Social Relations ¶

对象和主体不仅在物理上相互作用，而且在社会上相互作用：一个人可以推动另一个人，也可以帮助、阻碍、追求另一个人。社会关系的加工方式是否不同？

与事件关系一样，社会关系可以从揭示其基本特征的展示中被感知。在Heiderand Simmel [76]的经典研究中，简单的几何形状以自我驱动的方式移动，唤起了涉及交互主体的丰富叙事。表现出自动视觉加工的特征。

追踪的感知似乎是自动的。最近的一项研究[77]，一群移动的“狼”（飞镖形状）指向“羊”（观察者控制的圆盘），好像在追赶它。即使飞镖与任务无关，当飞镖似乎在追赶他们时，被试的觅食行为会受到损害。换句话说，被试“情不自禁”提取了狼与羊之间的对立关系。追踪的印象还取决于非常微妙的参数，例如追逐者的精确轨迹和方向。此外，追逐的“单位”是离散视觉对象[79]。例如当观察者描述“狼”点和“羊”点时，使用“逃避”和“跟随”等表示心理状态的语言；然而，当狼和羊通过细线连接到干扰物时，破坏了追踪的感知，引发了更少的心理状态语言[80]。显然，CHASE要求关联的是离散对象，而不仅是视觉特征（另见[81]）。

除了几何形状，最近的研究还通过人物形象来说明其他社会关系。两个人之间的社交互动（一起争论，一起笑）表现出检索不对称：在非互动的个体中定位互动的个体更容易，反之亦然[82]。此外，当一对人物被倒置或彼此相背时，这种效应消失了（另见 [83-85]；参见 [86]）。

最后，社会互动显示了关系的一个核心特征：它们的结构明确，例如R(x,y)与R(y,x)的区别。最近的一项研究[87]向观察者展示了快速、连续的序列中两人互动的自然照片（咬或挠，每个都需要agent和patient）。被试完成了一项简单的颜色检索任务，要指出目标个体（穿蓝色衣服的演员）的位置（左/右）。有趣的是，出现了“转换成本”：当目标的角色转换时被试的反应更慢（蓝衬衫个体从agent转换为patient）。换句话说，被试提取了这种互动的“结构”，甚至是自动提取的。

总之，跨越物理、事件和社会领域，其关系显示了自动视觉加工的关键特征：它们被快速自动提取，对微妙的视觉参数敏感，并与其他感知过程相互影响。由此产生的表征显示了复杂关系的核心特征：抽象的、分类的和结构化的。

6.Seeing How: Implications of Relational Perception ¶

认知科学传统上将视觉感知定义为“通过观察知道对象在哪里”的能力——表征位于空间某处的物体及其特征 [91]。此项研究探索了这种能力的新维度：不仅是“什么”和“在哪里”，还有“怎么”把它们放在物理和社会环境中。

视觉加工具有更广泛的认知“范围”。例如研究表明，关系感知机制在诸如单词学习（确定一个新动词是指因果事件还是非因果事件[93]）、“婴儿时期的核心知识表征（区分agent与patient [94]），甚至道德判断中起作用（车祸中的责任归咎[95]）。通过这种方式，视觉感知本身可能会支持复杂推理，包括那些与高级认知相关的推理。最近的研究已经开始展示这种高级关系表征如何从低级输入中产生，是视觉科学和其他认知领域的挑战。

7.结论 ¶

世界不仅包含孤立的实体和特征（红苹果、玻璃碗），还包含它们之间的关系（红苹果在玻璃碗中）。这些关系是丰富的、抽象的、分类的和结构化的——并且越来越多的证据表明它们被正确地感知。视觉本身就可以提供抽象的关系表征，不仅可以支持对场景的推断，还可以将关系加工的科学理解扩展到思维的新领域。