信息
题目:TransGait: Multimodal-based gait recognition with set transformer
出处:22年4月份出版在二区的文章
网址:https://link.springer.com/article/10.1007/s10489-022-03543-y
正文
摘要
步态作为一种可以远距离识别的生物特征,在预防犯罪、司法鉴定、社会保障等方面有着广泛的应用。然而,步态识别仍然是一个具有挑战性的任务,在典型的步态识别方法中存在两个问题。首先,现有的步态识别方法对行人服装和携带物的鲁棒性较弱。其次,现有的步态时间建模方法未能充分利用序列的时间关系,要求步态序列保持不必要的序列约束。针对这些问题,本文提出了一种基于轮廓和姿态特征的多模态步态识别框架。剪影和姿态的联合特征为行人的服装和搬运提供了高度的识别性和健壮性。此外,我们提出了一个具有时间聚合运算的集合变压器模型来获取集合级的时空特征。时间建模方法不受帧排列的影响,可以无缝集成不同场景下获得的不同视频的帧,比如不同的视角。在两个公共数据集CASIA-B和GREW上的实验表明,所提出的方法提供了最先进的性能。在最具挑战性条件下,在CASIA-B上穿不同衣服行走时,该方法的第1位正确率达到85.8%,显著优于其他方法(>4%)。
介绍
步态识别是一种基于人的行走模式的人体识别技术。与指纹、虹膜、人脸等人类识别方法中使用的其他人体生物特征信息相比,步态信息容易获取,不易伪造,适合远距离人体识别。由于这些优势,它已经成为生物特征识别和计算机视觉领域的一个活跃的研究课题,在公共安全和犯罪侦查中具有广泛的应用前景。现有的步态识别方法大多是从人体轮廓中提取步态特征。特别是随着深度卷积网络的发展,基于轮廓序列的方法得到了广泛的研究和应用。轮廓序列计算成本低,但能有效地描述人的步态。然而,识别精度受到服装、携带条件等各种外部因素的显著影响[1,2]。例如,最近的一种最先进的方法MT3D[3],在CASIA-B步态数据集[4]上,在正常行走条件下,不同视点下的准确率达到96.7%。然而,在换衣服的情况下,准确率下降到81.5%。
为了减少服装和携带条件对步态识别的影响,提出了一种结合轮廓和姿态热图的多模态步态识别方法。轮廓和姿态热图从不同的角度描述行人。轮廓序列描述了步态周期中行人外貌的变化,包含了丰富的行人信息。因此,轮廓步态特征具有很强的识别力。然而,轮廓容易受到行人衣物和物品的干扰,严重影响步态识别的准确性。相比之下,位姿序列描述了步态周期中行人内部关节的变化。因此,它不包含行人服装和携带的干扰信息,对换布和携带[5]具有鲁棒性。如图1a所示,由于服装信息的不同,同一行人在不同服装条件下的轮廓会有很大的不同,但是不同服装条件下的姿态热图是相似的。然而,姿态热图包含的信息较少,不足以区分不同的行人。如图1b所示,不同行人在相同步行条件下的姿态热图非常相似,但轮廓有显著差异。这说明轮廓和姿态信息是互补的,可以结合起来准确地描述步态。
轮廓具有丰富的外观信息,有助于区分不同的行人,从而增加了类间的判别性。姿势热图可以很好地适应衣服和行李的变化。从而减小了干扰信息对步态识别的影响,减小了类内差异。在CASIA-B数据集和the GREW上进行的实验表明,结合轮廓和位姿热图可以提高步态识别的准确性,因此需要使用多模态方法。
由于步态具有运动特性,步态时域建模是步态识别的关键技术之一。在现有的方法中,通常使用LSTM和3DCNN对步态进行时间建模。LSTM可以对步态周期中的长期时间特征进行建模。然而,LSTM不能并行训练。另一方面,3DCNN往往需要大量的参数。Fan et al.[6]选择了短期时间特征作为建模人类步态的最具鉴别性的特征。然而,仅短期的时间信息不足以提取人体步态的判别特征。虽然上述方法保留了更多的时间信息,但输入帧不连续和不同的帧速率会导致显著的退化。这是因为这些方法保留了不必要的顺序约束。因此,我们将集合变压器模块(STM)引入步态识别框架,以模拟不同时间尺度上的运动模式。首先,STM对步态序列元素的顺序没有约束,使得不同视点下步态帧之间的建模相互作用。其次,STM自适应学习步态序列中包含的不同运动模式,包括步态周期的短、中、长时间信息;变压器中的每个多头注意力操作员都关注不同的运动模式。我们的主要贡献总结如下:
(1)我们结合轮廓和姿态热图,以挖掘稳健和有鉴别力的步态特征的行人。我们构建了基于零件的多模态特征,这些特征是通过装配从轮廓和姿态生成的分裂深特征生成的。这些与特定部位相对应的多模态特征描述了行走时段内的部位水平运动特征。
(2)我们提出了一种新的步态识别时域建模模块——STM。将零件对应的多模态特征序列输入到STM中提取多运动特征进行步态识别。该网络融合了多模态视觉信息、基于部件的细粒度特征和步态序列的时间相关性。与其他视觉任务中使用的变压器模型不同,STM由于其对帧排列的鲁棒性而具有灵活性。
(3)该方法在CASIA-B和GREW数据集上优于最先进的步态识别方法。
相关工作
步态识别中的身体表征
在人体表征方面,步态识别可分为基于轮廓的方法[3,6 – 13]和基于姿态的方法[14-19]。轮廓一直是文学作品中最常用的身体表现形式。轮廓轮廓可以有效地描述行人在步态阶段的外观变化,因为轮廓轮廓[2]中没有描述步态识别的不相关信息,例如颜色。但是,由于它描述的是行人的外表,所以对服装和携带的变化非常敏感。基于姿态的步态识别方法通常采用三维骨骼作为人体表征,因为三维骨骼不易受服装和携带物的影响。然而,在三维姿态估计方法中存在两个问题:i)基于骨骼的三维方法严重依赖于人体关节的精确检测,对遮挡更加敏感。ii)三维骨架仅描述了步态阶段人体关节的变化,不能完全反映行人的步态。近年来,随着深度学习技术的发展,二维姿态估计技术取得了很大的进展。由于位姿信息在人体步态识别中具有重要意义,因此二维位姿是一种比三维位姿更可行且成本更低的技术方案。Feng等人利用从RGB图像中提取的人体关节热图提取时间特征。然而,当轮廓完全被忽略时,仅使用姿态的识别率并不令人满意。Li等人将三维关节、二维关节和人体轮廓整合在一起。这种方法取得了最先进的结果,但相对复杂。Zhao等人[22]分别提取了轮廓和姿态的单模态步态特征,而不是将轮廓和姿态作为多模态体表示来提取多模态步态特征。在本工作中,我们的目标是解决步态识别对服装和携带的鲁棒性。提出了一种基于轮廓-姿态身体表示的多模态步态识别方法。轮廓-姿态身体表征更全面地描述了行人步态的变化。它对行人的服装和行李的变化也很强劲。在本文中,我们选择二维位姿热图来描述行人接头的变化。由于二维位姿热图是人体关节的概率图,对位姿估计误差的鲁棒性优于三维骨骼。
步态识别中的时间表征
步态识别中的时间表示方法可分为基于模板的方法和基于序列的方法。基于模板的方法利用统计函数将步态信息聚合成单一的图像,该方法可以分为两大类:时态模板和卷积模板。时间模板在将步态信息输入网络前进行汇总,如步态能量图像(GEI)步态[23]和步态熵图像(GENI)步态[24]。卷积模板经过几层卷积和池化操作对步态信息进行聚合,包括集合池化[9]和步态卷积能量图(GCEM)[25]。基于序列的方法学习步态序列的时间关系,而不是聚合它们。基于序列的方法可以分为三大类:基于lstm的方法[7,25,26],基于3dcnn的方法[3,27]和基于微运动的方法[6]。Zhang et al.[7]将人体分成若干部分,每个部分利用LSTM时间注意模型提取步态的时空特征。Lin et al.[3]提出了一种多时间尺度的3DCNN (MT3D)模型,该模型改进了3D池化层,对每个局部时间片段的时间信息进行聚合。Fan et al.[6]提出了一种微动作捕捉模块(MCM),该模块由微动作模板构建器和时间池化模块组成。微运动模板生成器利用注意机制和统计函数聚合局部相邻帧,得到多个局部微运动模板。然后,通过时间汇聚模块对这些微运动模板进行聚合,获得步态特征。该方法证明了微运动对步态识别的有效性。但该方法只考虑微运动模式,不考虑其他运动模式。例如,初始运动与未来着陆运动之间的关系有利于步态识别。因此,我们使用set transformer模块对输入集中的元素之间的交互进行建模,在set transformer中,Multi-head attention中的每个头在步态序列中学习不同的运动模式,然后将这些运动模式特征聚合起来进行步态识别。
Transformer
Transformer在基于序列的任务中表现出色,特别是在自然语言处理(NLP)任务中[28,29]。它最初是为了解决RNN无法在并行[30]中训练的问题。该变压器由自注意模块和前馈神经网络组成。自注意模块以一种注意机制学习任意两帧之间的关系,提供了更好的并行性。多头注意由多个自我注意组成。每个头部提取不同模式的序列特征,有助于捕获更丰富的序列信息。变压器已被用于许多计算机视觉任务,如动作识别[31,32]和帧合成[33]。近年来,该变压器也被用于图像空间特征提取[34,35]。Dosovitskiy等人[34]首次用transformer代替CNN进行图像空间建模。Liu等人提出了一种基于移位开窗方案的分级变压器结构,该结构具有在不同尺度下建模的灵活性,且图像尺寸的计算复杂度为线性。Yao et al.[36]利用变压器建模步态识别中行人关节的空间关系。在本文中,我们将变压器用于步态识别的时间建模。提出了一种基于排列不变注意的神经网络模块,用于学习和聚合步态周期中的不同运动模式。、
方法论
所提步态识别模型的总体结构如图2所示。首先,轮廓和姿态热图从输入步态序列获得。然后将它们输入相应的特征提取模块(记为Es和Ep),提取帧级特征。然后,将轮廓和姿态特征图连接起来,得到剪影-姿态多模态帧级身体特征。通过水平池(HP)模块,多模态框架级的主体特征被水平地分割为部分级特征。对于每个部分,我们使用STM提取步态序列在不同时间尺度上的运动模式,并通过时间聚合获得时空细粒度特征。最后,利用提取的集级局部运动特征进行步态识别。
流程
设数据集中受试者的RGB图像序列为{Ii | i = 1,…,t},其中t为序列中的帧数。采用背景相减法和预训练位姿估计网络(CPM)[37]分别从RGB图像序列中提取相应的轮廓序列和2D位姿热图序列,记为{Si | i = 1,…,t}和{Pi | i = 1,…,t}。然后利用Es和Ep提取轮廓和二维位姿热图序列的空间特征。
将轮廓特征图si和位姿特征图pi串联得到剪影-位姿多模态特征图mi,如下:
其中[·]表示连接操作。采用多模态特征作为身体表征特征,分别比轮廓特征和姿态特征对行人的衣料和负重更具有鲁棒性和更强的识别力。近期的人员再识别方法从局部部分生成深度表示,用于细粒度的人的鉴别特征[38-40]。受这些作品的启发,我们使用水平池(HP)模块来提取局部人体的部分信息特征。
如图3所示,HP模块将多模态特征图mi水平分割为n个部分(实验中我们选择n = 16)。然后,HP模块对mi的每一部分进行全局平均采样和max pooling,生成列特征向量mpj,i。
其中j∈1,2,…,n。将多模态特征序列变换为n个部件级特征向量,得到多模态部件表示矩阵MP =mpj,in×t。其中j∈1,2,…,n。将多模态特征序列变换为n个部件级特征向量,得到多模态部件表示矩阵MP =mpj,in×t。
最后,我们使用几个独立的FC层将从STM中提取的特征向量映射到度量空间中进行步态识别。
多头注意力
作为变压器的组成部分,自注意机制显式地模拟序列中所有实体之间的交互。自注意是在接收元组输入(查询、键、值)时定义的,并执行缩放的点积为:
多头注意由多个自我注意块组成,每个自我注意块在序列元素之间寻找不同的关系。多头注意力模块的表达式如下:
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
相关推荐: java202303java学习笔记第三十二天从入门到起飞
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net 机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net相关推荐: 谈谈ChatGPT是否可以替代人起初我以为我是搬砖的,最近发现其实只是一块砖,哪里需…