利用视觉世界范式中的眼球运动探索口语的实时加工



论文信息 ¶

Zhan, L.(2018). Using Eye Movements Recorded in the Visual World Paradigm to Explore the Online Processing of Spoken Language. J. Vis. Exp. (140), e58086, doi:10.3791/58086

论文原文 ¶

关键词 ¶

行为;眼动技术;视觉世界范式;口语;实时加工;复杂陈述;等

摘要 ¶

视觉-世界范式(visual world paradigm)是眼动技术一项重要应用。在一个典型的视觉世界范式实验中,当实验参与者理解一个听觉呈现的言语刺激或口语产出一个言语信号时,实验主试用眼动仪实时记录实验参与者眼睛在相关世界空间(电脑屏幕或空间中的实际物体)中的运动。基于言语信号和实验参与者眼睛运动之间的关系,研究者能够推测实验参与者对听觉语言信号的实时理解或实时产出过程。 该文中说明了如何进行典型的视觉世界眼动追踪研究,并举例说明如何使用视觉世界范式探索一些语义复杂语句的实时处理。

引言 ¶

  1. 视觉世界范式基本逻辑 视觉世界范式中记录的眼动能够用于研究短暂、迅速变化的言语信号。这一范式的基本逻辑/相关假设是理解或计划言语时,参与者的视觉注意力会转移到视觉世界中的某个对象,这种注意力转移将有很大的可能性启动眼球跳动,将被关注的区域带入中心凹视野。研究人员关注参与者的视觉注意力发生转移的时间点是什么。在使用视觉世界范式的口语理解研究中,当参与者听到谈论视觉呈现物体的话语时,研究员会监控他们在视觉呈现物体上的眼球运动。
  2. 理解现代眼动仪工作原理 使用录像机录制后逐帧分析视频手动编码眼球运动太耗时,采样速度也相对较低。因此,现代商业眼动追踪系统通常使用光学传感器测量眼睛在其轨道中的方向。要了解现代商业眼动追踪系统的工作原理需要考虑:
  • 为了正确测量中央凹视觉的方向,通常将红外照明器沿着或偏离相机的光轴放置,使得瞳孔的图像比周围的虹膜明显更亮或更暗,并以此计算眼睛在其轨道中的方向。
  • 视觉世界中的注视位置实际上不仅取决于眼睛相对于头部的方向,还取决于头部相对于视觉世界的方向。光源和眼动仪的相机要么相对于参与者的头部固定(头戴式眼动仪),要么相对于视觉世界固定(台式或远程眼动仪)
  • 参与者的头部方向必须相对于视觉世界是固定的,或者如果参与者的头部可以自由移动,则必须进行计算补偿
  • 需要进行校准和验证过程,以将眼睛的方向映射到视觉世界中的注视。校准(Calidation)是用于设置眼动追踪软件以准确跟踪眼球运动的过程,这是通过记录眼睛位置来完成的,同时被试在已知位置处注视显示在显示器上的一组九个固定点(黑点),固定点以随机顺序呈现。固定点的数量可以根据刺激任务占据屏幕大小显示来改变。通常情况下,校准使用9点模式(左上,顶部中心,右上,中左,中间中,右中,左下,中下,右下)。如果在显示器的垂直中心仅呈现一行文本,则校准范围可以减小到显示器的中心区域(使用3点或5点校准即可)。验证校准(Validation)。在验证期间,被试注视与校准期间相同的九个点。然后将计算注视位置与已知的固定位置进行比较,以确定计算的注视位置中的视觉误差的程度。此时,软件将显示有关每个注视点的视觉错误程度,所有点的平均误差以及所有点的最大误差的信息。
  1. 原始数据的处理 视觉世界研究中使用的因变量通常是参与者的注视在特定时间窗口内位于视觉世界中特定空间区域的样本比例。为了分析数据,首先必须选择一个时间窗口,通常被称为period of interest。此外,还需要将视觉世界分成几个感兴趣的区域(ROI),每个区域与一个或多个对象相关联。在分析结果时,需要考虑的因素见原文。
  2. 其他影响眼球运动的因素 要从参与者在视觉世界中的眼球运动来推断他们对某些口语的理解,因此其他可能影响眼球运动的因素需要被排除/控制。影响因素包括:一、被试的系统性模式(例如有的人可能更倾向于看左上方),为了避免物体所在的空间位置影响结果,一个物体的空间位置应该在不同的试验或不同的参与者之间保持平衡。二、视觉世界中物体的基本图像特征,例如亮度对比度、颜色等,需要在无言语输入条件下观察测试图片,这时候如果存在注视时间差异可能提示有混杂因素的影响。

实验流程 ¶

(通过一个关于连词“and\or\but”的具体实验,介绍大致的实验流程)

  1. 准备测验的刺激
  • 视觉刺激:准备60个动物图片、大的打开的盒子图片、小的打开的盒子图片、小的关闭的图片。在同一块屏幕上的呈现出四类图片:A(打开的大盒子里有这两个动物)、B(关闭的小盒子)、C(打开的小盒子里有某动物)、D(打开的小盒子里有另一动物)。像这样创造60个测验图片,每个动物图片使用两次,平衡掉四个盒子在图像中的空间位置。(不论小盒子是否打开,里面都有一个动物)
  • 言语刺激:每张测试图片有4个测试句,共计240句,每张图片中,三句分别是“小明的箱子里有…和…”;“小明的箱子里有…或…”;“小明的箱子里有…但没有…”,剩下一句是filler:“小明的箱子里没有…但有…”,随后招募一名女性汉语母语者,对这60个动物以及这些刺激句录音,使用praat将这些动物录音拼接进刺激句中,并由汉语母语者判断这些编辑后的录音是否自然。(注意这里并没有将测试音频作为一个整体录制,而是各部分单独录制,因此需要评估拼接后的音频是否自然)
  • 将240个测试句子分为四组,每组包含15个and句、15个or句、15个but句和15个填充句。确保每个参与者只经历一组试验:他/她会看到所有的测试图像,但只听到一组测试音频。(避免重复产生应对策略)
  1. 根据实验设计构建理论预测 根据实验设计,对于and的正确反映图片是A,对but句的正确反映是语音中首先出现的动物的图片,对or句来说却很复杂:如果被试同时计算了scalar inference和ignorance inference,那么就会选择图B作为最终选项;如果被试计算了scalar inference,而没有计算ignorance inference,那么图A就会被排除,会在剩下三个图片中选择;如果被试计算了ignorance inference,而没有计算scalar inference,那么C和D就会排除,会在A和B中做出选择。
  2. 构建实验脚本 这一部分涉及Experiment Builder的具体使用,包括创建项目、导语语音和图片、提示语设置、建立实验序列等操作,需要用时见原文。
  3. 招募被试 被试需要考虑视力状况等情况,同时需要根据统计方法确认被试人数,回归分析的人数不少于50人
  4. 进行实验 这一部分涉及Experiment Builder在启动实验时的具体使用操作,包括选择眼动仪、设置模式、设置被试的位置、校准、验证等,需要用时见原文。
  5. 数据编码和分析 要在某个采样点构建特定感兴趣区域的数据,如果参与者的眼睛注视位于要在该采样点分析的感兴趣区域,则将数据编码为 1。如果眼睛固定不在该采样点的感兴趣区域中,则将数据编码为 0。 画一张固定比例图,将获得的数据可视化。为了计算对特定感兴趣区域的注视比例,对所有试验的编码数据和每个条件下每个样本点的所有参与者的编码数据进行平均。用不同的面板表示感兴趣的区域,用绘制的颜色表示不同的实验条件,在y轴上绘制计算的注视比例与轴上的采样点。 由于数据不是二进制的,编码数据只能是1或0,所以编码数据的分布是二进制的,而不是正态分布。 此后,使用了二项分布的GLMM模型。GLMM模型包括固定项和实验条件,以及参与者和项目两个随机项。对这两个随机项计算的公式既包括截距,也包括实验条件的斜率。用来进行模型拟合的软件是R环境下的lme4软件包。其他软件也是可用的。值得一提的是,当分析的感兴趣区域(即分析的盒子)不同时,固定项目的基线也不同。具体地说,分析大开箱(A箱)时选择连词(S1andS2)作为基线,分析小闭箱(B箱)时选择析取(A和B箱)作为基线,分析第一个提到的箱(D箱)时选择BUT语句作为基线。(具体选择的统计方法,大致就是选择线性回归,以一个条件作为基线来看不同条件下注视情况的差别?) Bonferroni对Wald z检验得到的p值进行调整,以减少多次比较引起的家系误差。(这里的Bonferroni与家庭误差还不太明白)

代表性成果 ¶

被试的行为数据符合预期,更多被试在听到or语句时,选择图片B(小的关闭的盒子),说明了被试当理解析取语句时同时计算了scalar inference和ignorance inference,同时眼动数据也反映了被试对小的关闭盒子的注视,也表明了理解析取语句时同时计算了scalar inference和ignorance inference。同时,眼动的数据反映被试对小关闭盒子的注视增加的开始不晚于析取连接词结束的节点,即,在遇到析取词or时立即计算scalar inference和ignorance inference。

讨论 ¶

在进行视觉世界范式研究时,应该注意遵守几个重要的步骤:需要控制自然任务中可能影响被试眼动的因素、为了准确地用某一语言标记语开始对受试者的眼动进行时间锁定,研究者需要找到一种客观一致的方法来界定某一语言结构的边界、研究员需要进行一次或多次校准、验证和漂移矫正的过程、同时,这些研究得到的数据具有一些特殊的性质,例如有自相关误差等,在选择统计分析方法时应该考虑这些特殊性质。 视觉世界范式的优点:1. 视觉世界范式可以在广泛的人群中使用,如不能阅读或不能做出行为反应的人群等。2. 视觉世界范式对语音信号的细粒度操作极其敏感,可用于多层次研究语言理解中大多数主题的实时加工。 视觉世界范式的缺点:1. 被试对口语的解释是根据他们在视觉世界上的眼球运动来推断的,因此可以用视觉世界范式来研究的语言属性仅限于那些可以可视化的语言属性,即它们应该与视觉世界中的实体或事件有某种联系。2. 实验所使用的视觉世界范式通常比实际的视觉世界更受限制,只有有限的一组图片参照物和有限的一系列潜在动作,因此范式可能对特定试验中建立的封闭集合之外的语言知识和经验的特征不敏感。 视觉世界范式本质上是探索来自视觉领域的信息和来自听觉领域的信息的整合。从理论上讲,任何可以被这两个领域处理的信息都可以使用这种范式进行潜在的研究。这种范式可以进一步扩展,以探索来自其他领域的信息的整合,而不仅包含视觉领域和听觉领域。例如,研究人员可能会使用这项技术来观察参与者在视觉世界中的注视是如何受到不同气味、不同触摸等的影响的。

想法记录 ¶

  • 校准和验证过程及其概念
  • Experiment Builder里sequence和node的概念以及基本操作
  • 眼动的基本统计分析方法
  • 可以去了解眼动技术在听觉以外的运动?如嗅觉这种?