FineGym数据集的概述。我们在时间和语义上都提供了从粗到细的注释。一共有三个级别的分类标签。时间维度(由两个条形表示)也分为两个级别,即动作和子动作。通常可以使用集合类别或精确地使用元素类别来描述子动作。子动作实例的真实元素类别是通过手动构建的决策树获得的。
按照公开基准,当前的动作识别技术已经取得了巨大的成功。但是,在实际应用中使用时,例如运动分析需要将活动分为多个阶段,并区分不同的动作,但其表现仍远不能令人满意。为了将动作识别提升到一个新的水平,我们开发了FineGym,这是一个基于体育馆视频的新数据集。与现有的动作识别数据集相比,FineGym在丰富性,质量和多样性方面均卓著。特别是,它使用三级语义层次结构在操作和子操作级别提供时间注释。例如,“平衡木”事件将被注释为从五组中衍生的一系列基本子动作:“飞跃跳伞”,“光束转弯”,“飞行萨尔托”,“飞行手簧”和“卸除”,其中每个集合中的子操作将进一步使用定义良好的类标签进行注释。这种新的粒度级别为行动识别提出了重大挑战,例如如何从连贯动作中解析时间结构,以及如何区分细微不同的动作类别。我们系统地研究了该数据集上的代表性方法,并获得了许多有趣的发现。我们希望该数据集可以促进对动作理解的研究。
我们提供了一些细粒度的子操作实例的示例。每个组都属于同一事件中的三个元素类别(BB,FX,UB和VT)。可以看出,这样的细粒度实例包含细微而具有挑战性的差异。 (将鼠标悬停在GIF上,速度会降低0.25倍)
实证研究与分析 Empirical Studies and Analysis
(1)元素级动作识别对现有方法提出了巨大挑战。
Element-level action recognition results of representative methods.
(2)稀疏采样不足以进行细粒度的动作识别。
(3)时间信息有多重要?
(a)运动特征(例如光流)可以捕获逐帧的时间动态,从而导致TSN更好的性能。
(b)时间动态在FineGym中起着重要作用,TRN可以捕捉到它。
(c)当测试帧的数量与训练中的数量非常不同时,TSM的性能急剧下降,而TSN保持其性能,因为仅应用了时间平均池。
(4)对大规模视频数据集进行预训练有帮助吗?
在FineGym上,对动力学进行预训练并不总是很有帮助。一个潜在的原因是粗粒度动作和细粒度动作之间在时间模式方面的巨大差距。
(4)为什么姿势信息无济于事?
基于骨架的ST-GCN由于在体操实例上进行骨架估计方面的挑战而苦苦挣扎。
@inproceedings{shao2020finegym, title={FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding}, author={Shao, Dian and Zhao, Yue and Dai, Bo and Lin, Dahua}, booktitle={IEEE Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2020} }
We sincerely thank the outstanding annotation team for their excellent work. This work is partially supported by SenseTime Collaborative Grant on Large-scale Multi-modality Analysis and the General Research Funds (GRF) of Hong Kong (No. 14203518 and No. 14205719). The template of this webpage is borrowed from Richard Zhang.
For further questions and suggestions, please contact Dian Shao (sd017@ie.cuhk.edu.hk).