Khan - 第 5 页 - 数据集市

NLP

0 0

博客作者身份语料库

由2004年8月从blogger.com收集的19,320位博主的文章组成，共计681,288篇，字数超过1.4亿——平均每人35篇、7250字（298 MB）

Khan

2021-08-24

NLP

0 0

Apache Software Foundation公共邮件存档

截至2011年7月11日所有公开可用的Apache Software Foundation邮件存档（200 GB）

Khan

2021-08-24

ZEST: ZEroShot learning from Task descriptions

NLP

0 0

ZEST: ZEroShot learning from Task descriptions

ZEST is a benchmark for zero-shot generalization to unseen NLP tasks, with 25K labeled instances across 1,251 differ ...

Khan

2021-08-24

NLP

0 0

大规模多语种图像数据集（MMID）

MMID是一个大规模，大规模多语种的图像数据集，与它们所代表的单词在宾夕法尼亚大学收集。数据集是双重平行的：对于每种语言 ...

Khan

2021-08-24

NLP

0 0

为欧洲官方语言提供网络规模并行语料库（ParaCrawl）

ParaCrawl 是一套大型平行公司，通过广泛的网络爬行工作，为所有欧盟官方语言提供往返英语的辅助。从识别带有翻译文本的网站 ...

Khan

2021-08-24

NLP

0 0

NLP - fast.ai datasets

Some of the most important datasets for NLP, with a focus on classification, including IMDb, AG-News, Amazon Reviews ...

Khan

2021-08-24

其他软件

0 0

Google Books Ngrams

N-grams are fixed size tuples of items. In this case the items are words extracted from the Google Books corpus. The ...

Khan

2021-08-24

NLP

0 0

Aristo Tuple KB

294,000 science-relevant tuples

Khan

2021-08-24

NLP

0 0

AI2 Tablestore (November 2015 Snapshot)

68 tables of curated facts

Khan

2021-08-24

AI2 TabMCQ: Multiple Choice Questions aligned with the Aristo Tablestore

NLP

0 0

AI2 TabMCQ: Multiple Choice Questions aligned with the Aristo Tablestore

9092个科学问题和68个精选事实表

Khan

2021-08-24

NLP

0 0

维基简历：高效人评价的连贯总结数据集

此数据集提供wikihow.com及其摘要中如何处理文章，这些文章以连贯的段落书写。数据集本身可在维基.zip，并包含文章，摘要， ...

Khan

2021-08-24

NLP

0 0

VoiSeR

基于语音的产品搜索改进

Khan

2021-08-24

NLP

0 0

The Multilingual Amazon Reviews Corpus

我们介绍了一系列亚马逊评论，专门旨在帮助多语种文本分类的研究。该数据集包含 2015 年 11 月 1 日至 2019 年 11 月 1 日之 ...

Khan

2021-08-24

Reasoning Over Paragraph Effects in Situations (ROPES)

NLP

0 0

Reasoning Over Paragraph Effects in Situations (ROPES)

14k QA pairs over 1.7K paragraphs, split between train (10k QAs), development (1.6k QAs) and a hidden test partition ...

Khan

2021-08-24

NLP

0 0

Quoref

24K Question/Answer (QA) pairs over 4.7K paragraphs, split between train (19K QAs), development (2.4K QAs) and a hid ...

Khan

2021-08-24

NLP

0 0

购买前和购买后产品问题

此数据集提供与产品相关的问题，包括其文本内容和购买和发布时间之间的小时间隙。每个问题也与相关的产品详细信息相关，包括 ...

Khan

2021-08-24

NLP

0 0

PASS：产品评论的扰动和选择总结器

PASS 自动生成的来自"很少萨姆"数据集的 32 种亚马逊产品的产品评论摘要集

Khan

2021-08-24

NLP

0 0

NIH NCBI PMC 文章数据集

PMC 开放访问（OA）子集，其中包含 PMC 中包含具有机器可读知识

Khan

2021-08-24

NLP

0 0

多语种名称实体识别（NER）数据集与公报

名称实体识别数据集包含短句和低上下文查询，包括 LOWNER、MSQ-NER、ORCAS-NER 和公报（167 万实体）。此版本包含低上下文名 ...

Khan

2021-08-24

其他软件

0 0

低上下文名称实体识别（NER）数据集与公报

我们创建包含短句子和低上下文查询的 NER 数据集。其中包括从维基百科句子中提取的训练/开发/测试集（即低级）。我们还创建 ...

Khan

2021-08-24

博客作者身份语料库

Apache Software Foundation公共邮件存档

ZEST: ZEroShot learning from Task descriptions

大规模多语种图像数据集 （MMID）

为欧洲官方语言提供网络规模并行语料库（ParaCrawl）

NLP - fast.ai datasets

Google Books Ngrams

Aristo Tuple KB

AI2 Tablestore (November 2015 Snapshot)

AI2 TabMCQ: Multiple Choice Questions aligned with the Aristo Tablestore

维基简历：高效人评价的连贯总结数据集

VoiSeR

The Multilingual Amazon Reviews Corpus

Reasoning Over Paragraph Effects in Situations (ROPES)

Quoref

购买前和购买后产品问题

PASS：产品评论的扰动和选择总结器

NIH NCBI PMC 文章数据集

多语种名称实体识别 （NER） 数据集与公报

低上下文名称实体识别 （NER） 数据集与公报

大规模多语种图像数据集（MMID）

多语种名称实体识别（NER）数据集与公报

低上下文名称实体识别（NER）数据集与公报