RELX数据集和匹配跨语言关系分类的多语种空白

点击图片放大查看

资源介绍

关系分类是信息提取的关键课题之一，可用于建立知识基础或为答题提供有用的信息。目前的关系分类方法主要侧重于英语，需要大量的带有人工注释的培训数据。为低资源语言创建和注释大量培训数据是不切实际和昂贵的。为了解决这个问题，我们提出了两种跨语言关系分类模型：基于多语种BERT的基线模型和新的多语种预培训设置，这显著改善了远程监督的基线。为了进行评估，我们推出了一个新的公共基准数据集，用于英语、法语、德语、西班牙语和土耳其语的跨语言关系分类，称为 RELX。我们还提供RELX-远距离数据集，其中包括数十万句与维基百科和维基数据的关系收集的远程监督这些语言。

END

标签

信息提取大规模

上一篇美国手语数字分类的新数据集和建议的凸起神经网络架构

下一篇 NCLS-科波拉

发表评论取消回复

请先登录账户再评论哦

RELX数据集和匹配跨语言关系分类的多语种空白免费

资源介绍

发表评论取消回复

最新文章

热门文章

MIMIC-III（"重症监护医疗信息市场"）

NIH NCBI PMC 文章数据集

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

标签云

猜你喜欢

RELX数据集和匹配跨语言关系分类的多语种空白免费

资源介绍

发表评论 取消回复

最新文章

热门文章

MIMIC-III（"重症监护医疗信息市场"）

NIH NCBI PMC 文章数据集

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

标签云

猜你喜欢

MIMIC-III（"重症监护医疗信息市场"）

NIH NCBI PMC 文章数据集

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

Chinese handwritten digits MNIST dataset

路透社语料库

Reddit评论

Yahoo! N-Grams 2.0

NUBES：西班牙临床文本中否定和不确定性的语料库

发表评论取消回复