FineGym: 分层视频数据集,用于细粒度的动作理解免费

jsaifc 21 2021-08-24 语音识别

资源介绍

FineGym: 分层视频数据集,用于细粒度的动作理解 (http://ds.jsai.org.cn/) 语音识别 第1张

FineGym数据集的概述。我们在时间和语义上都提供了从粗到细的注释。一共有三个级别的分类标签。时间维度(由两个条形表示)也分为两个级别,即动作和子动作。通常可以使用集合类别或精确地使用元素类别来描述子动作。子动作实例的真实元素类别是通过手动构建的决策树获得的。

Abstract

按照公开基准,当前的动作识别技术已经取得了巨大的成功。但是,在实际应用中使用时,例如运动分析需要将活动分为多个阶段,并区分不同的动作,但其表现仍远不能令人满意。为了将动作识别提升到一个新的水平,我们开发了FineGym,这是一个基于体育馆视频的新数据集。与现有的动作识别数据集相比,FineGym在丰富性,质量和多样性方面均卓著。特别是,它使用三级语义层次结构在操作和子操作级别提供时间注释。例如,“平衡木”事件将被注释为从五组中衍生的一系列基本子动作:“飞跃跳伞”,“光束转弯”,“飞行萨尔托”,“飞行手簧”和“卸除”,其中每个集合中的子操作将进一步使用定义良好的类标签进行注释。这种新的粒度级别为行动识别提出了重大挑战,例如如何从连贯动作中解析时间结构,以及如何区分细微不同的动作类别。我们系统地研究了该数据集上的代表性方法,并获得了许多有趣的发现。我们希望该数据集可以促进对动作理解的研究。

数据集层次结构 Dataset hierarchy

FineGym: 分层视频数据集,用于细粒度的动作理解 (http://ds.jsai.org.cn/) 语音识别 第2张

FineGym organizes both the semantic and temporal annotations hierarchically. The upper part shows three levels of categorical labels, namely events (e.g. balance beam), sets (e.g. dismounts) and elements (e.g. salto forward tucked). The lower part depicts the two-level temporal annotations, i.e. the temporal boundaries of actions (in the top bar) and sub-action instances (in the bottom bar).
 子动作示例 Sub-action examples

我们提供了一些细粒度的子操作实例的示例。每个组都属于同一事件中的三个元素类别(BB,FX,UB和VT)。可以看出,这样的细粒度实例包含细微而具有挑战性的差异。 (将鼠标悬停在GIF上,速度会降低0.25倍)

FineGym: 分层视频数据集,用于细粒度的动作理解 (http://ds.jsai.org.cn/) 语音识别 第3张

实证研究与分析 Empirical Studies and Analysis

(1)元素级动作识别对现有方法提出了巨大挑战。

FineGym: 分层视频数据集,用于细粒度的动作理解 (http://ds.jsai.org.cn/) 语音识别 第4张

Element-level action recognition results of representative methods.

(2)稀疏采样不足以进行细粒度的动作识别。

FineGym: 分层视频数据集,用于细粒度的动作理解 (http://ds.jsai.org.cn/) 语音识别 第5张
Performances of TSN when varying the number of sampled frames during training.

(3)时间信息有多重要?

(a)运动特征(例如光流)可以捕获逐帧的时间动态,从而导致TSN更好的性能。

(b)时间动态在FineGym中起着重要作用,TRN可以捕捉到它。

(c)当测试帧的数量与训练中的数量非常不同时,TSM的性能急剧下降,而TSN保持其性能,因为仅应用了时间平均池。

FineGym: 分层视频数据集,用于细粒度的动作理解 (http://ds.jsai.org.cn/) 语音识别 第6张
(a) Per-class performances of TSN with motion and appearance features in 6 element categories.
(b) Performances of TRN on the set UB-circles using ordered or shuffled testing frames.
(c) Mean-class accuracies of TSM and TSN on Gym99 when trained with 3 frames and tested with more frames.

(4)对大规模视频数据集进行预训练有帮助吗?

在FineGym上,对动力学进行预训练并不总是很有帮助。一个潜在的原因是粗粒度动作和细粒度动作之间在时间模式方面的巨大差距。

FineGym: 分层视频数据集,用于细粒度的动作理解 (http://ds.jsai.org.cn/) 语音识别 第7张
Per-class performances of I3D pre-trained on Kinetics and ImageNet in various element categories.

(4)为什么姿势信息无济于事?

基于骨架的ST-GCN由于在体操实例上进行骨架估计方面的挑战而苦苦挣扎。

FineGym: 分层视频数据集,用于细粒度的动作理解 (http://ds.jsai.org.cn/) 语音识别 第8张
The results of person detection and pose estimation using AlphaPose for a Vault routine. It can be seen that detections and pose estimations of the gymnast are missed in multiple frames, especially in frames with intense motion. These frames are important for fine-grained recognition. (Hover on the GIF for a 0.25x slowdown)

Cite

@inproceedings{shao2020finegym,
title={FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding},
author={Shao, Dian and Zhao, Yue and Dai, Bo and Lin, Dahua},
booktitle={IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2020}
}

Acknowledgements

We sincerely thank the outstanding annotation team for their excellent work. This work is partially supported by SenseTime Collaborative Grant on Large-scale Multi-modality Analysis and the General Research Funds (GRF) of Hong Kong (No. 14203518 and No. 14205719). The template of this webpage is borrowed from Richard Zhang.

 

Contact

For further questions and suggestions, please contact Dian Shao (sd017@ie.cuhk.edu.hk).

END

发表评论