一、文献名称 ¶
Ferreira, P. M., Cardoso, J. S., & Rebelo, A. (2017). Multimodal learning for sign language recognition. Lecture Notes in Computer Science. 10255, 313-321. https://doi.org/10.1007/978-3-319-58838-4_35
二、研究背景 ¶
手语在交际过程中也是非常重要的,它经常在听力障碍者中使用,是一种视觉交流方式,有自己的词汇和语法,并结合有关的手势和面部表情来传递意思。而手语识别的主要目的就是讲视频或图像中的符号自动翻译成相应的文本或语音。这不仅对于弥合聋人和hearing people之间的沟通差距很重要,而且对于增加聋人可以访问的内容数量也很重要(例如,针对聋人的教育工具或游戏以及手语视觉词典)。
SLR任务可通过使用可穿戴设备或基于视觉的方法来解决。基于视觉的SLR系统通常有三个主要构件:1手部分割 和/或 跟踪 2特征提取 3手势识别。基于此,研究采用了Leap Motion传感器来识别手势,但是由于传感去不能完全识别手势配置中的所有手指,因此Marin等人把Leap Motion的输入数据和Kinect结合。
三、研究过程 ¶
a、研究改进之处 ¶
1、以两种不同的方式探索卷积神经网络(convolutional neural networks)的概念来识别SL。首先,CNN直接对标志进行分类。第二,使用CNN作为特征提取器,避免了手工(hand-craft)特征提取过程,避免了针对手势的大幅度变化设计可靠特征的固有困难。
2、我们为SLR问题开发了一个多模态学习框架,利用了Kinect(颜色+深度)和Leap Motion提供的数据。
3、我们对单模态和多模态学习技术进行了比较研究,以证明多模态学习在整体符号识别表现中的有效性。
目的:探索多模态学习在SLR中的潜力。提出了单模态方法和不同的多模态方法,在不同的层次上进行融合。多模态技术包括数据级、特征级和决策级融合方法。
b、单模态符号识别方法 ¶
1、Kinect 模式(颜色和深度) ¶
用两种方式来探索CNN,一是直接对手势进行分类;而是作为一个特征提取器。
Kinect模式、颜色和深度都需要预处理:要在特征提取和手势识别之前,从图像的嘈杂背景中分割手。首先要使用肤色模型去区分皮肤像素和背景像素,这种肤色二值化 skin colour binarization 用于过滤深度图。然后,通过仅使用深度信息对过滤后的深度图执行手部分割。
CNN模型作为分类器 ¶
已实现的CNN的体系结构如图2a所示。在训练阶段,应用了几种正则化技术,如L2范数、数据增强和丢失,以防止过拟合。
CNN模型作为特征描述 ¶
CNN的后几层似乎在视觉上学习输入的语义属性,因此用它作为特征提取器。见图2b。
2、Leap Motion ¶
与Kinect不同,LM不提供完整的深度图,而是直接提供手和指尖的一组相关特征。本文中,使用了从LM数据计算的三种不同类型的特征:
指尖距:Di= ||Fi− C|| ,i = 1, …, N;其中,N表示检测到的手指数量,表示每个指尖和手中心c之间的三维距离
指尖间距(fingertip inter-distances):Ii= ||Fi− Fi+1||,i = 1, …, N − 1;表示连续指尖之间的3D距离
Hand direction O: 表示从手掌位置朝向手指的方向。方向表示为单位向量,指向从手掌位置到手指的有向线的相同方向。
这两个距离特征由签名者(用户)根据每个用户的最大指尖距离和指尖间距离来归一化(normalized)。执行这种标准化是为了使这些特征对于不同手大小的人来说是robust的.见图2C
C、多模态手势识别 ¶
根据融合水平,多模态融合技术可以大致分为三大类:(I)数据级,(ii)特征级,以及(iii)决策级融合技术
1、数据级融合fusion ¶
目的是在早期阶段合并来自不同模态的数据。
图3a,包括RGB彩色图像与深度图的连接,产生了四维矩阵。
2、特征级融合 ¶
三个阶段::(I)学习一种表示(representation),(ii)监督训练,以及(iii)测试。根据阶段(I)和(ii)的顺序,特征级融合技术可以大致分为两大类:(1)端到端融合,其中表示(representation)和分类器是并行学习的,见图3b;以及(2)多步融合,其中首先学习representation,然后从中学习classifier,参见图3c
3、决策层融合 ¶
目的是为每个模态学习一个特定的分类(classifier),然后在它们之间找到一个决策规则。本文利用为每个分析中的模态单独设计的模型的输出类概率的概念。然后,实现了两种主要的决策规则来组合这些类概率:图3d
(1)预定义的决策规则:两种不同的预定义决策规则。在第一种方法中,最终的预测由最大化平均类概率的参数给出。在第二种方法中,最终预测由具有最大置信度的模型给出。
(2)从数据中学习的决策规则:这种方法的基本思想是从数据中学习决策规则。因此,创建了一个描述符,该描述符将从每个模态的单个模型中提取的类概率连接起来,然后用作符号识别的多类SVM分类器的输入。
四、研究结果 ¶
在公开的微软Kinect和Leap Motion手势识别数据库中对所提出的方法进行了实验评估。该数据库由美国手语的10个静态手势组成。每个手势由14个不同的人来完成,重复10次,总共得到1400个手势。将数据集分为10个人的1000幅图像的训练集和另外4个人的400幅图像的测试集。训练集被进一步分成两个子集:一个子集用于训练所有单模态方法,另一个子集用于训练需要单模态方法输入的多模态技术,例如特征级和决策级融合方法。
多模态学习的潜力 ¶
为了在SLR背景下挖掘多模态学习的潜力,文章计算了每种单模态方法正确预测而其他方法错误预测的测试符号率。如表1a所示,这些结果清楚地表明,通过多种方式解决SLR问题具有相对较大的潜力。特别是,每种Kinect形态(即颜色或深度)与Leap Motion之间的互补性比两种Kinect形态之间的互补性更高。例如,有4.25%和5.75%的测试实例中,Leap Motion做出了正确的预测,而colour和depth分别做出了不正确的预测。
五、讨论及其他 ¶
表1b和c分别给出了所提出的单模态和多模态符号识别方法的实验结果。根据分类准确度(Acc)报告结果,分类准确度由正确分类的标记数t与测试标记总数n之比给出:Acc% = n分之t× 100。关于单模态方法的第一个观察结果是,颜色和深度都优于Leap Motion,准确率分别为94.75%、91.75%和82.00%。但是应该注意的是,为了从背景中分割手以进行特征提取,Leap Motion手势识别不需要任何类型的预处理。另外,多模态融合通常促进符号识别准确性的整体提高。这些结果清楚地表明了三种模式之间的互补性。具有平均决策规则的决策级融合方案提供了最佳的总体分类精度(Acc = 9±7.00%)。一般来说,决策级融合比数据级和特征级融合表现得更好。事实上,数据级融合导致了比最佳单模态方法更差的模型,Acc为89.75%。同样,端到端特征级融合方法的性能也比最佳单模态方法差。
未来怎么运用这种方法?