我们创建包含短句子和低上下文查询的 NER 数据集。其中包括从维基百科句子中提取的训练/开发/测试集(即低级)。我们还创建两个测试集从MS-MARCO(自然语言问题)和ORCAS(搜索查询),称为MSQ-NER和ORCAS-NER提取。所有已发布的集都包含文本及其在 CoNLL 格式中对齐的实体注释。此次发布的数据还包含宪报数据,该数据由来自英语维基数据知识库的 167 万个实体组成。
×
微信扫一扫分享到朋友圈