MIT Saliency 是一个眼睛浏览轨迹数据集,包括对 39 个物体 300 张视觉浏览轨迹数据。
视觉注意力的许多计算模型已经通过多种不同的方法来创建,以预测人们在图像中的位置。通常通过演示新图像的性能来介绍每个模型,并且很难在模型之间进行立即比较。为了缓解此问题,我们提出了一个基准数据集,其中包含300个自然图像以及来自39个观察者的眼睛跟踪数据,以比较模型的性能。我们使用三种不同的指标来计算10个模型在预测地面真相注视时的性能。我们为人们提供了一种在线提交新模型进行评估的方法。我们发现,贾德等。基于图的视觉显着性模型效果最好。通常,具有模糊贴图的模型和包含中心偏差的模型的效果都很好。我们为每个模型添加和优化模糊和中心偏差,并显示出改进之处。我们将绩效与机会,中心和人类绩效的基准模型进行比较。我们表明,人类的表现会随着人数的增长而增加。我们使用多维缩放分析不同模型的相似性,并探索模型性能与注视一致性之间的关系。最后,我们提供有关将来如何改进显着性模型的观察结果。