时间建模是视频中动作识别的关键,时间建模分为两个方面。
当前的方法以及缺点。
short-range motions
long-range aggregations
对单帧数据通过2D CNN提取特征,然后对多帧的特征图pooling操作,融合结果。
缺点:这种简单的总结策略会导致时间信息的丢失/混乱
采用局部3D/(2+1)D卷积运算来处理局部时间窗。通过在深层网络中重复叠加局部卷积来间接模拟长期时间关系。
缺点:一般会使用若干CNN基本结构叠加从而提取特征,但叠加多了训练困难
本文提出了Temporal Excitation and Aggregation (TEA) block。该模块由两个子模块组成。分别解决上述的两个问题。
ME模块的架构如上图所示。输入时空特征X的形状为[N;T;C;H;W],其中N是批大小(batch size)。T和C分别表示时间维和特征通道。H和W对应于空间形状。所提出的ME模块是,在所有特征通道中,不同的通道将捕获不同的信息。一部分通道倾向于对与背景场景相关的静态信息进行建模,而其他通道则主要关注描述时间差异的动态运动模式。对于动作识别,使模型能够发现并增强这些运动敏感通道是有益的。
我们将时间步末的运动特征表示为零,即M(T)=0,并将所有的运动特征串联起来构造最终的运动矩阵M(1);:::;M(T)]。然后利用全局平均池层来总结空间信息,因为我们的目标是激发运动敏感通道,其中详细的空间布局并不重要:
利用另一个1×1二维卷积层将运动特征的通道维数扩展到原始通道维数C,并利用sigmoid函数得到运动注意权重A
如上图的右上角所示,给定一个输入特征X,一个典型的方法是用一个局部时间卷积和另一个空间卷积来处理它。与此不同的是,我们沿着通道维度将特征分成四个片段,每个片段的形状就变成了[N;T;C/4;H;W]。局部卷积也被分成多个子卷积。最后三个片段依次用一个信道方向的时间子卷积层和另一个空间子卷积层进行处理。每一个参数只有原来的1/4。此外,在相邻的两个片段之间增加了剩余连接,将模块从并行结构转换为层次级联结构。
MTA模块受到Res2Net的启发。下面简单看一下Res2Net模型。它的模型结构如下图:
我们在更细粒度上提高了CNNs的多尺度表示能力。为了实现这一目标,我们使用一组w个通道,较小的滤波器组取代 n个通道大小为3×3 的滤波器(不失一般性,我们使用n = s×w),如图2所示,这些较小的滤波器组连接在一个分层类残差网络中来增加输出特性可以代表的尺度。具体来说,我们将输入特征映射划分为几个组。一组滤波器首先从一组输入特征映射中提取特征。然后,将前一组的输出特性与另一组输入特性映射一起发送到下一组滤波器。这个过程重复几次,直到处理完所有的输入特征映射。最后,将所有组的feature map连接起来,发送到另一组1×1的滤波器中,将所有信息融合在一起。随着输入特征转化为输出特征的任何可能路径的出现,当经过3×3滤波器时,等效感受野就会增大,由于组合效应导致了许多等效的特征尺度。
MTA模块根据Res2Net将图中3×3 CNN的卷积换成3D的卷积核,考虑到使用3D卷积会产生大量的参数以及对算力的要求。于是将3D卷积核替换为(2+1)D的这种形式。
R(2+1)D结构如下图所示:
单独用一个t×1×1的卷积核来融合时间维度上的信息。这个分解的好处,第一就是两个子卷积之间多出来一个非线性操作,和原来同样参数量的3维卷积相比double了非线性操作,给网络扩容。第二个好处就是时空分解让优化的过程也分解开来,事实上之前发现,3维时空卷积把空间信息和动态信息拧巴在一起,不容易优化。2+1维卷积更容易优化,loss更低。但是如果叠加过多的R(2+1)D结构也会造成训练困难的问题。
论文中可以学习大佬是如何做消融实验的。
文中为了证明ME和MTA模块的有效性,在不损失通用性的前提下,模型在Something V1训练集中用8帧进行训练,并在验证集上进行评估。为了进行比较,考虑了六个基线网络,其相应的块如图4所示。比较结果,包括分类精度和推理协议,如表1所示:
得到的结果是:
通过引入MTA模块来考虑长程时间关系,我们的方法(TEA)的准确度可以进一步提高到48.9%。
在本节中,我们首先将TEA与现有最先进的动作识别方法(V1和Kinetics400数据集)进行比较。综合统计,包括分类结果、推理协议和相应的FLOPs,如下图所示:
第一个部分包含基于3D CNNs或2D和3D CNNs混合的方法,第二个部分中的方法都基于2D或(2+1)D CNNs。在现有的所有方法中,效率最高的是TSN8f[44]和TSM8f[27],只有33G的FLOPs。与这些方法相比,我们提出的TEA网络的浮点运算量略有增加,达到35G (1.06倍),但性能有很大提高,相对提高了5.4 % (48.8%对43.4%)。
在Kinetics400上,我们的方法(76.1%)的性能不如SlowFast[7](79.8%)。然而,慢速网络采用基于3D-CNNs的深层网络(ResNet101),并利用耗时的非本地[45]操作。当比较效率相似的方法时,如TSM[27]和STM[22],TEA获得了更好的性能。当采用8帧输入时,TEA比TSM提高了1%的准确率(75.0%比74.1%)。在使用16个输入帧的情况下,我们的TEA方法比TSM16f和STM 16f有更大的优势(76.1%对74.7%/73.7%)。
最后,在表4中报告了HMDB51和UCF101的比较结果。TEA在HMDB51上达到73.3%,在UCF101上达到96.9%。模型(TEA16f)的性能优于除I3D外的大多数现有方法[3]。I3D是基于3D-CNNs和附加的输入形式,因此,它的计算FLOPs将远远超TEA的。
最后,在表4中报告了HMDB51和UCF101的比较结果。TEA在HMDB51上达到73.3%,在UCF101上达到96.9%。模型(TEA16f)的性能优于除I3D外的大多数现有方法[3]。I3D是基于3D-CNNs和附加的输入形式,因此,它的计算FLOPs将远远超TEA的。
本文发布于:2024-02-05 09:27:22,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170728686865292.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |