TAPOS论文分享

阅读: 评论:0

TAPOS论文分享

TAPOS论文分享

论文解读

Intra- and Inter-Action Understanding via Temporal Action Parsing

1. 文章主要做了几个工作

  • 一个新的数据集TAPOS,它为每个动作实例以及它的时序结构提供一个类标签

  • 一个新的任务,即时间动作解析,它鼓励探索动作的内部结构

  • 一种改进的时间动作解析框架(基于Transformer),它为进一步的动作内部和动作之间的理解提供了额外的能力。

2. 相关工作

Datasets

  1. only class labels:

    • KTH, Weizmann, UCFSports, Olympic
    • UCF101, HMDB51, Sports1M, Kinetics
  2. boundaries of actions in untrimmed video:

    • THUMOS’15, ActivityNet, Charades, HACS, AVA
  3. finegrained annotations for action instances(author’s): 动作实例的细粒度注释

    • Salads, Breakfast, MPIICooking, JIGSAWS

Tasks

  • 行为识别,给定一个行为一个标签,在untrimmed video中给定行为定位
  • 对动作实例的内部结构的详细了解,特别是在时间维度上(TAP/TAS)
    • TAP仅提供了子动作之间的边界,而这些边界的监督作用却明显较弱
    • TAS的目标是在一组预定义的子动作中标记动作实例的每一个框架,这些子动作可以在一个监督下完成

3. 数据集TAPOS

  • 关注于奥林匹克运动,奥运动作具有丰富的子动作,格式宽松但内部结构多种多样,因此鼓励模型以数据驱动的方式利用内部动作。 此外,同一奥林匹克运动的实例具有一致且干净的背景,使模型专注于运动本身

  • 样本可确保覆盖完整的动作实例,而镜头不会发生变化。

s a m p l e = ( c l a s s _ l a b l e , t h e _ r a n g e s _ o f _ s u b a c t i o n s ) 子 动 作 的 粒 度 为 二 级 粒 度 sample = (class_lable,the_ranges_of_subactions) 子动作的粒度为二级粒度 sample=(class_lable,the_ranges_of_subactions)子动作的粒度为二级粒度

TAPOS contains 16,294 valid instances in total, across 21action classes. These instances have a duration of 9.4 seconds on average. The number of instances within each class is different, where the largest class high jump has over 1,600 instances, and the smallest class beam has 200 instances. The average number of sub-actions also varies from class to class, where parallel bars has 9 sub-actions on average, and long jump has 3 sub-actions on average.

4. 子动作分析

  • 持续均匀的时间段

  • 与带注释的子操作对齐的时间段

即使对于乍一看似乎完全不同的那些动作,不同动作类中的子动作也可以相似。

5. 时序动作解析

A = v 1 , . . . , v n = S 1 , . . . , S k A={v_1,...,v_n}={S_1,...,S_k} A=v1​,...,vn​=S1​,...,Sk​ where S i = v t i , . . . , v t i + 1 − 1 Si={v_{t_i},...,v_{t_i+1−1}} Si=vti​​,...,vti​+1−1​

优化设计:两个损失函数

  • local loss:为了帮助模式挖掘者在动作框架的特征中捕获信息模式,应用语义损失来最大化子动作内的框架之间的一致性,同时抑制子动作之间的一致性

  • global loss:行为类别分类的损失

NLLLoss的结果就是把上面的输出与Label对应的那个值拿出来,再去掉负号,再求均值。

6. 实验结果分析

召回率、精准率、F1值:

Baseline:

TCN(时序卷积神经网络)、ISBACTM

定量分析:

  • F1值方面比baseline有很大的优势,与人类的表现相比,还有很大的差距,还有很大的提升空间(Table2)
  • TCN和CTM有高的recall,但是有低的prec,表明这些方法遭受严重的过度解析,表明它们过于关注局部差异
  • ISBA performs poorly on recalls but yield higher precision than CTM and TCN,可能会捕获这种从粗到精的方式并且无法利用内部行为信息
  • increase the distance,baseline的快速饱和
  • the crucialrole of local semantic loss
  • increasing the number of SPS Units


定量分析:

本文发布于:2024-02-04 09:00:08,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170703604054173.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:论文   TAPOS
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23