计算机视觉的核心目标是赋予算法智能描述图像的能力;目标检测是规范的图像描述任务,这在应用程序中实用性很强,并且可以直接在现有设置中进行基准测试。而物体检测器的精确度已经得到了显著提高,并且已经开发出新功能,例如:图像分割和 3D 表示。
从少数例子中有效地学习是机器学习和计算机视觉中一个重要的开放性问题,从科学和实践的角度来看,这个机会是非常令人振奋的。但要开放这个领域进行实证研究,需要一个合适的、高质量的数据集和基准。我们的目标就是通过设计和收集 LVIS,一个用于大规模词汇量对实例分割研究基准数据集来实现这一新的研究方向,并在最终完成 164k 大小的包含 1000 类物体的约 200 万个高质量的实力分割标注图像数据集。