ParaCrawl 是一套大型平行公司,通过广泛的网络爬行工作,为所有欧盟官方语言提供往返英语的辅助。从识别带有翻译文本的网站 ...
Some of the most important datasets for NLP, with a focus on classification, including IMDb, AG-News, Amazon Reviews ...
294,000 science-relevant tuples
此数据集提供wikihow.com及其摘要中如何处理文章,这些文章以连贯的段落书写。数据集本身可在维基.zip,并包含文章,摘要, ...
我们介绍了一系列亚马逊评论,专门旨在帮助多语种文本分类的研究。该数据集包含 2015 年 11 月 1 日至 2019 年 11 月 1 日之 ...
PMC 开放访问 (OA) 子集,其中包含 PMC 中包含具有机器可读知识
名称实体识别数据集包含短句和低上下文查询,包括 LOWNER、MSQ-NER、ORCAS-NER 和公报(167 万实体)。此版本包含低上下文名 ...
我们创建包含短句子和低上下文查询的 NER 数据集。其中包括从维基百科句子中提取的训练/开发/测试集(即低级)。我们还创建 ...
此数据集提供产品问题答题系统中标记的幽默检测。数据集包含 3 csv 文件:幽默.csv包含幽默产品问题、非幽默无偏见问题.csv ...
此数据集在公开发布的专题聊天数据集(https://github.com/alexa/Topical-Chat)的基础上提供额外的注释,这将有助于重现我 ...