EGTEA Gaze+是最大、最全面的FPV动作和凝视数据集。它包含了GTEA Gaze+,并附带高清视频(1280x960)、音频、凝视跟踪数据、帧级动作注释和采样帧的像素级手面具。
具体来说,EGTEA Gaze+包含了来自32个受试者的86个独特阶段的28小时烹饪活动。这些视频配有音频和凝视跟踪(30Hz)。我们还提供了动作的人类注释(人-物交互)和手部掩模。
action注释包括10325个细粒度操作的实例,例如“cutbellpepper”或“将调味品(从)调味品容器倒入色拉”。
手部掩模包括视频13847帧的15176个手部图片掩模注释。