1. 参考文献 ¶

Gao, T., Baker, C. L. Tang, N., Xu, H. K., & Tenenbaum, J. B. (2019). The cognitive architecture of perceived animacy: Intention, attention, and memory. Cognitive Science, 43(8), e12775. http://doi.org/10.1111/cogs.12775

2. 研究背景 ¶

我们的视觉不仅限于对物理性质的感知，还包括包含丰富的社交内容：关于对象及其属性的表征，包括目标、意图、能力和关系。现代研究通常强调社会认知的自下而上或自上而下的加工。自下而上加工的最新研究整合了追踪范式，目的是唤起人们关于对象生命性和意向性的感知，这些类型的动画已被许多研究用来衡量搜索目标导向运动的客观效率，以及触发各种类型社会认知的视觉信息。

我们的目的是设计一种模型，以实现快速有意义的生命性感知。研究认为模型建构应在认知约束下进行。这里考虑注意力和工作记忆两种约束。注意和工作记忆是核心的认知资源。随着干扰点数量的增加，追踪检测的能力会下降，这表明注意在感知追踪中的关键作用。最近的研究表明人类对目标导向和意向性行动的检测还涉及到预注意（引起注意的过程）。对社交互动的感知也可能受到工作记忆的限制。任何社交互动都至少需要持续几百毫秒才能被视为有意义，我们的感知无法在很短的时间内准确地表示对象的运动。由于上述的这些原因，我们会在短期记忆中存储物体运动轨迹。

三个模型：（1）贝叶斯理想观察者模型。该模型具有完美的准确度，且不受约束。该模型可以合理地根据观察到的运动轨迹推断对象的意图。（2）纯注意力（串行）模型。该模型在理想观察者模型的基础上，假设存在注意力加工容量的限制，只能“感知”到使用注意力进行追踪、并将其运动在短期记忆中存储的对象。（3）混合模型。该模型假设反映了自上而下和自上而下加工之间的交互作用，这些过程通过注意相互联系。与“纯注意力模型”不同，尽管该模型的准确率和存储能力非常有限，但它可以用并行方式感知到其注意力以外的主体。研究介绍这三个模型在任务中的具体表现。

3. 研究方法 ¶

a. 被试 ¶

浙江大学的十二名大学生。

b. 材料和过程 ¶

被试观看显示屏中移动的点，操作变量包括显示屏中的点数量（3、4、6、9）以及偏离角度（5°，30°，60°，90°，120°，150°，180°），共224个试验，每种条件下8个试验，每个试验持续8 s。每200ms点都会改变方向，为羊随机选择了40个运动方向，并选择了能使其与狼的距离最大化的方向，这使羊“逃离”了狼。要求被试在检测到狼和羊后立即按“空格”键停止实验。然后，他们需要单击鼠标依次选择狼和羊。选中对象的大小将增加10％，字母W、S将出现在对象的中心。他们也可以单击右键取消对项目的选择。记录准确率和反应时（RT），准确率定义为同时正确地识别“狼”和“羊”。 RT定义为试验开始到按空格键的持续时间。

在正式实验之前，有12次练习，未记录结果。整个实验持续了大约50分钟。

对于集合大小N，则关于狼和羊假设数量=N乘（N-1）。在有偏离角度的情况下，每200毫秒，狼随机选择与目标方向不同的运动方向。追踪的客观效率随着偏离角度的增加而下降。随后观察三种模型在任务中的表现。

4. 结果 ¶

人类表现追踪检测的准确率为43.9%。准确率和RT、偏离角度、干扰点数量的交互作用都很显著。结果表明，干扰点越多、偏离角度越大追踪越具挑战性，只有偏离度较小的时候（0°，30°）才可以很容易地进行追踪检测，而偏离度大于90°时，追踪检测的表现迅速下降到机会水平。计算每种条件下人类和模型的平均准确性。使用均方根（RMS）评估模型的预测值与观察值之间的差异。

理想的观察者模型可以比人类有更好的表现，准确率和RT的RMS为43％和2.2 s。这种巨大的差异表明理想观察者模型是人类感知加工的非现实模型。

纯注意力模型包括精度（4，6，8）和容量（2，4，8，12，20）的组合。增加每个注意力槽的精度都可以提高模型的性能，在不同的精度值下，结果均很可靠。其中八个槽与人类性能最为匹配，在精度为4、6、8的情况下，RMS误差分别为7.8％、7.8％、6.7％；相应RT的RMS误差为1.18、1.10、1.21 s。这表明在理想观察者模型中增加注意力和记忆力限制，可以使模型的结果更接近于人类的表现。这表明认知能力限制是确定追踪行为的心理关键因素。但是，该模型仍然不能令人满意。

混合模型存储四个相对运动方向，只能跟踪两个狼羊假设。主要目的是通过将高度有限的注意力和记忆力与预注意并行加工相结合，探讨该模型是否可以达到跟人类相似的表现。注意力精度为8，记忆速率为0.7。我们预计，预注意加工的质量应比注意加工的质量差很多。预注意的精度为2，2.5，3，而记忆速率为0.4，0.45，0.5。该模型与人类结果相一致。九种条件下准确率和RT的RMS误差分别为8％和0.85 s。混合模型之所以适合人类表现，很大程度上是由于其结构，以及它不需要仔细选择不同参数的组合。RMS误差最小的情况下（准确率：6％； RT：0.77 s）有2.5的精度和0.45的记忆速率。

5.讨论 ¶

实验将人类的表现与三种不同的模型进行了比较，这些结果共同证明，可以使用认知约束的贝叶斯理想观察者模型来表征追踪。虽然纯注意力模型和混合模型都能够与人类表现相匹配。但混合模型更为适合。纯注意力模型至少需要跟踪8个假设（16个相对运动方向）才能达到人类的表现。考虑到对视觉工作记忆的研究，这一要求似乎是不现实的。而混合模型假设人类只能跟踪四个相对运动方向。虽然加入并行加工会引入另外两个自由参数，可能并不完全准确，但现有行为研究证明了并行的预注意加工。综合考虑这些因素，混合模型更为适合。