人类交流中的多模态语言处理


1、文献名称: ¶

Judith, H., & Stephen, C. L. (2019). Multimodal language processing in human communication. Trends in Cognitive Sciences, 23(8), 639-652. http://doi.org/10.1016/j.tics.2019.05.006

2、主要内容 ¶

人类语言的自然生态是面对面的互动。心理语言学的加工在其自然生态位上提出新问题:语言核心的绑定问题。即在紧迫时间的约束下,对多个时间偏移信号的绑定。在这篇文章中,作者提出如何在时间要求较高的会话言语语境中,以不同的方式将由不同发音者携带的多种信号迅速组合起来,以建立连贯信息的现象学。

语言在其中心生态位(即面对面的互动)中被使用,并且被嵌入了多模态显示中,在这一领域的沟通涉及到复杂的多器官编配问题:信息包括听觉和视觉,分布在语音、非语音发声以及头、脸、手和躯干等部位。从接受者(recipient)的角度讲,这在原则上应该提出两个计算挑战(computational challenges): 首先,并不是所有的身体或面部动作都是信号或内容的一部分——必须把附带但无关的动作放在一边(segregation problem);其次,那些看起来是信息的一部分必须与相应的部分配对(比如我们说“那里”,同时用手指向)(约束问题 binding problem)。

1)有大量的关于口语处理的文献,但是大多是只关注语言信号。但是视觉发音器官有很多:仅脸部就有43块肌肉,还有大量的肌肉会参与手臂、头部,躯干的运动。所以发音器官不单单只是嘴巴、舌头这么简单,它存在一定的复杂性和多样性。除此之外,多层视觉符号在时间上是偏移的,比如嘴唇动作先于对应发声达100-300ms;参照手势往往先于相应的信息几百毫秒甚至几秒钟。但是,这些多模态信号能被统一、同步的感知,即使是在相当大的时间异步状态下,大脑也可以毫不费力地将其整合。

2)有观点认为不同的视觉与听觉刺激的传导时间可能是部分原因(构成声音的压力波转成听觉图像比视网膜感知器转成视觉图像要快),但这被相反方向的两种传输方式在传输时间上的差异抵消了(光的传播速度比声音快)。

3)语言并步(asynchronios)带来了约束问题,言语随时间发展,期间出现不同的视觉信号,这些信号不仅需要集成为成对的较小尺度,也要在不同发音器官和层次,即对话者的谈话必须要有回应。

4)要区分可传递的信息或偶然的运动,区分“管家”(housekeeper)而非信息级别的功能。有效的过滤机制过滤无关动作,并将剩余信号绑定到统一的消息中。

5)将时间约束与多模态问题结合,意味视觉信号添加到听觉信号理解中,对处理系统带来压力。但事实相反,实验证明参与者对语言手势结合的反应快于对只说语言的反应。同时处理更多的信号比单独处理语音要快。非人类物种也有多峰整合。研究目的:试图解开复杂的潜在多模态话语处理和可能支持它的认知机制。

1)类似格式塔原则(gestalt-like principles)。迅速相关反应前提:整体信息与整个对话相对应。以格式塔方式运行的解析机制必须分层次地整合信息,使我们能在复杂层次上绑定独立的信息单元,并区分整体图像。这些机制有通用领域根源。

2)格式塔和稳定的形式意义映射。多模态信号与整个系统传达的交际意义共同存在(表达否定意义的句子伴有“not face"的表愤怒,蔑视等的面部表情。还有除了脸部运动以外的,如身体前倾和某些手势。幼儿手势也能实现类似言语行为的功能,与非人类灵长动物的行为有相似之处,这表明这些社会行为可能根植于进化史。并且不同文化都存在形式意义映射。

1)在格式塔识别的背景下,信号在不同发音体之间的分布以及它们的偏移时间有助于有效交流。研究认为,预测是认知的基础,时间上的不对齐可能促进语言的预测处理,预测发生在不同的时间尺度及不同层次上。

2)各发音器产生不连续信号流——绑定成多重信号(无层次结构在这个阶段发挥作用:任何信号都可能启动并与其他信号绑定)——这一层面的预测是自下而上的过程,主要在展开的多模态话语的较短时间内进行——产生时间相近的信号的特定组合被认为是处于最低处理水平的多路信号。

3)在此之上的是对消息的不同语义级别上的类格式配置的预测。跨层次预测是情景语言理解过程的核心组成部分,通过在不同层次上形成多重信号来促进跨层次预测。研究发现嘴唇运动有利于即将到来的声音预测。

4)多模态语义记忆缓冲区。轮流对话中,有一个点是理解者对信号计划一个相匹配的反应。这个点出现在轮流对话的早期。这种反应得到了多重信号和多模态的帮助,提高了预测的保真度。隔离(segregation)问题同样需要记忆缓冲罐,因为要把乍一看不是交流的动作放在一边,如果信号改变,那早期的隔离就需要被修正,重新将之前的孤立信号进行整合。

1)对话环境中的多模态信号涉及到一种大多数现存的人类语言加工模型中缺失 的复杂次序。在理解对话加工方面做了很大努力,但仍忽略了语言的多模态方面。对话设置和面部表情都被忽略。

2)人类有组织的社会互动能力为面对面的交流提供基础。面对面(而非背对背)社会互动认知倾向与人类身体相匹配:双手解放。

3)人类的交流系统似乎是为多模式的社会互动而建立的,需要一个语言原位框架来回答关于人类语言处理的新问题。它包含了多模态话语的产生。

4)对于绑定和编排流程的某些组件,流程可以共享。产出需要对包含多路信号的层次化结构行为进行编程,对信号组件进行选择,为其生成不同的时间戳,保留其直到调用。

​ 快速多模态集成、格式塔识别和预测是大多数物种生存的核心。使这些过程成为可能的认知机制很可能是古老的,在进化过程中为人类交流所吸纳的,为我们提供了多模式社会互动的自然倾向。这种倾向是多模态语言处理现象的核心,并提出一个框架,包括这一概念和认知机制,这个机制可以支撑我们处理多模态语言。