Intra- and Inter-Action Understanding via Temporal Action Parsing
一个新的数据集TAPOS,它为每个动作实例以及它的时序结构提供一个类标签
一个新的任务,即时间动作解析,它鼓励探索动作的内部结构
一种改进的时间动作解析框架(基于Transformer),它为进一步的动作内部和动作之间的理解提供了额外的能力。
Datasets
only class labels:
boundaries of actions in untrimmed video:
finegrained annotations for action instances(author’s): 动作实例的细粒度注释
Tasks
关注于奥林匹克运动,奥运动作具有丰富的子动作,格式宽松但内部结构多种多样,因此鼓励模型以数据驱动的方式利用内部动作。 此外,同一奥林匹克运动的实例具有一致且干净的背景,使模型专注于运动本身
样本可确保覆盖完整的动作实例,而镜头不会发生变化。
s a m p l e = ( c l a s s _ l a b l e , t h e _ r a n g e s _ o f _ s u b a c t i o n s ) 子 动 作 的 粒 度 为 二 级 粒 度 sample = (class_lable,the_ranges_of_subactions) 子动作的粒度为二级粒度 sample=(class_lable,the_ranges_of_subactions)子动作的粒度为二级粒度
TAPOS contains 16,294 valid instances in total, across 21action classes. These instances have a duration of 9.4 seconds on average. The number of instances within each class is different, where the largest class high jump has over 1,600 instances, and the smallest class beam has 200 instances. The average number of sub-actions also varies from class to class, where parallel bars has 9 sub-actions on average, and long jump has 3 sub-actions on average.
持续均匀的时间段
与带注释的子操作对齐的时间段
即使对于乍一看似乎完全不同的那些动作,不同动作类中的子动作也可以相似。
A = v 1 , . . . , v n = S 1 , . . . , S k A={v_1,...,v_n}={S_1,...,S_k} A=v1,...,vn=S1,...,Sk where
S i = v t i , . . . , v t i + 1 − 1 Si={v_{t_i},...,v_{t_i+1−1}} Si=vti,...,vti+1−1
优化设计:两个损失函数
local loss:为了帮助模式挖掘者在动作框架的特征中捕获信息模式,应用语义损失来最大化子动作内的框架之间的一致性,同时抑制子动作之间的一致性
global loss:行为类别分类的损失
NLLLoss的结果就是把上面的输出与Label对应的那个值拿出来,再去掉负号,再求均值。
召回率、精准率、F1值:
Baseline:
TCN(时序卷积神经网络)、ISBA
、CTM
定量分析:
定量分析:
本文发布于:2024-02-04 09:00:08,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170703604054173.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |