大规模 - 第 4 页 - 数据集市

NLP

67

为欧洲官方语言提供网络规模并行语料库（ParaCrawl）

ParaCrawl 是一套大型平行公司，通过广泛的网络爬行工作，为所有欧盟官方语言提供往返英语的辅助。从识别带有翻译文本的网站 ...

Khan

2021-08-24

NLP

44

NLP - fast.ai datasets

Some of the most important datasets for NLP, with a focus on classification, including IMDb, AG-News, Amazon Reviews ...

Khan

2021-08-24

NLP

71

Aristo Tuple KB

294,000 science-relevant tuples

Khan

2021-08-24

NLP

44

维基简历：高效人评价的连贯总结数据集

此数据集提供wikihow.com及其摘要中如何处理文章，这些文章以连贯的段落书写。数据集本身可在维基.zip，并包含文章，摘要， ...

Khan

2021-08-24

NLP

82

The Multilingual Amazon Reviews Corpus

我们介绍了一系列亚马逊评论，专门旨在帮助多语种文本分类的研究。该数据集包含 2015 年 11 月 1 日至 2019 年 11 月 1 日之 ...

Khan

2021-08-24

NLP

100

NIH NCBI PMC 文章数据集

PMC 开放访问（OA）子集，其中包含 PMC 中包含具有机器可读知识

Khan

2021-08-24

NLP

42

多语种名称实体识别（NER）数据集与公报

名称实体识别数据集包含短句和低上下文查询，包括 LOWNER、MSQ-NER、ORCAS-NER 和公报（167 万实体）。此版本包含低上下文名 ...

Khan

2021-08-24

其他软件

82

低上下文名称实体识别（NER）数据集与公报

我们创建包含短句子和低上下文查询的 NER 数据集。其中包括从维基百科句子中提取的训练/开发/测试集（即低级）。我们还创建 ...

Khan

2021-08-24

NLP

43

产品问题答题系统中幽默检测

此数据集提供产品问题答题系统中标记的幽默检测。数据集包含 3 csv 文件：幽默.csv包含幽默产品问题、非幽默无偏见问题.csv ...

Khan

2021-08-24

NLP

108

知识基础对话系统的丰富主题聊天数据集

此数据集在公开发布的专题聊天数据集（https://github.com/alexa/Topical-Chat）的基础上提供额外的注释，这将有助于重现我 ...

Khan

2021-08-24

为欧洲官方语言提供网络规模并行语料库（ParaCrawl）

NLP - fast.ai datasets

Aristo Tuple KB

维基简历：高效人评价的连贯总结数据集

The Multilingual Amazon Reviews Corpus

NIH NCBI PMC 文章数据集

多语种名称实体识别 （NER） 数据集与公报

低上下文名称实体识别 （NER） 数据集与公报

产品问题答题系统中幽默检测

知识基础对话系统的丰富主题聊天数据集

多语种名称实体识别（NER）数据集与公报

低上下文名称实体识别（NER）数据集与公报