由2004年8月从blogger.com收集的19,320位博主的文章组成,共计681,288篇,字数超过1.4亿——平均每人35篇、7250字(298 MB)
截至2011年7月11日所有公开可用的Apache Software Foundation邮件存档(200 GB)
ZEST is a benchmark for zero-shot generalization to unseen NLP tasks, with 25K labeled instances across 1,251 differ ...
MMID是一个大规模,大规模多语种的图像数据集,与它们所代表的单词在宾夕法尼亚大学收集。数据集是双重平行的:对于每种语言 ...
ParaCrawl 是一套大型平行公司,通过广泛的网络爬行工作,为所有欧盟官方语言提供往返英语的辅助。从识别带有翻译文本的网站 ...
Some of the most important datasets for NLP, with a focus on classification, including IMDb, AG-News, Amazon Reviews ...
N-grams are fixed size tuples of items. In this case the items are words extracted from the Google Books corpus. The ...
294,000 science-relevant tuples
68 tables of curated facts
9092个科学问题和68个精选事实表
此数据集提供wikihow.com及其摘要中如何处理文章,这些文章以连贯的段落书写。数据集本身可在维基.zip,并包含文章,摘要, ...
基于语音的产品搜索改进
我们介绍了一系列亚马逊评论,专门旨在帮助多语种文本分类的研究。该数据集包含 2015 年 11 月 1 日至 2019 年 11 月 1 日之 ...
14k QA pairs over 1.7K paragraphs, split between train (10k QAs), development (1.6k QAs) and a hidden test partition ...
24K Question/Answer (QA) pairs over 4.7K paragraphs, split between train (19K QAs), development (2.4K QAs) and a hid ...
此数据集提供与产品相关的问题,包括其文本内容和购买和发布时间之间的小时间隙。每个问题也与相关的产品详细信息相关,包括 ...
PASS 自动生成的来自"很少萨姆"数据集的 32 种亚马逊产品的产品评论摘要集
PMC 开放访问 (OA) 子集,其中包含 PMC 中包含具有机器可读知识
名称实体识别数据集包含短句和低上下文查询,包括 LOWNER、MSQ-NER、ORCAS-NER 和公报(167 万实体)。此版本包含低上下文名 ...
我们创建包含短句子和低上下文查询的 NER 数据集。其中包括从维基百科句子中提取的训练/开发/测试集(即低级)。我们还创建 ...