RELX数据集和匹配跨语言关系分类的多语种空白免费

Khan 28 2021-08-24 NLP

资源介绍

关系分类是信息提取的关键课题之一,可用于建立知识基础或为答题提供有用的信息。目前的关系分类方法主要侧重于英语,需要大量的带有人工注释的培训数据。为低资源语言创建和注释大量培训数据是不切实际和昂贵的。为了解决这个问题,我们提出了两种跨语言关系分类模型:基于多语种BERT的基线模型和新的多语种预培训设置,这显著改善了远程监督的基线。为了进行评估,我们推出了一个新的公共基准数据集,用于英语、法语、德语、西班牙语和土耳其语的跨语言关系分类,称为 RELX。我们还提供RELX-远距离数据集,其中包括数十万句与维基百科和维基数据的关系收集的远程监督这些语言。

END

发表评论

猜你喜欢