细粒度实体打字是一项具有挑战性的任务,具有广泛的应用。但是,此任务的大多数现有数据集都是英文的。本文介绍了中国细粒度实体打字的语料库,其中包含 4,800 个通过众包手动标记的提及。每个提及都附有自由形式实体类型的注释。为了使我们的数据集在更多可能的情况下有用,我们还将所有细粒度类型分类为 10 种一般类型。最后,我们对一些神经模型进行实验,这些模型的结构在细粒度实体键入中是典型的,并显示它们在我们的数据集上的表现。我们还展示了通过跨语言转移学习改进中国细粒体打字的可能性。
×
微信扫一扫分享到朋友圈