数据集制图:利用培训动态绘制和诊断数据集免费

Khan 15 2021-08-24 NLP

资源介绍

大型数据集在 NLP 研究中已司空见惯。然而,对数据量的日益重视使得评估数据质量变得困难。我们引入数据地图---基于模型的工具来描述和诊断数据集。我们利用一个基本上被忽视的信息源:模型在培训期间(培训动态)中对单个实例的行为,用于构建数据图。这为每个示例提供两个直观的衡量标准---模型对真实类的信心,以及这种信心在各个时代的变化---在单次培训中获得。对四个数据集的实验表明,这些模型依赖度量在数据图中显示了三个不同的区域,每个区域都有明显的特征。首先,我们的数据图显示了该模型存在"模糊"区域,这些区域对分配外概括的贡献最大。其次,数据中人口最多的区域是"易学"的模型,在模型优化中起着重要的作用。最后,数据地图揭示了一个区域,其中有模型发现"难以学习"的实例:这些通常对应于标记错误。我们的结果表明,将重点从数据数量转移到数据质量可能导致强大的模型和改进的分布外概括。

END

发表评论

猜你喜欢