Khan - 第 3 页 - 数据集市

NLP

0 0

新闻文章/维基百科页面配对

阅读一篇简短文章，并选出它和两篇维基百科文章中的哪一篇最接近

Khan

2021-08-24

NLP

0 0

印度新闻标题[Kaggle]

汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题

Khan

2021-08-24

NLP

0 0

NEGRA

德语报刊文本的句法注释语料库，适用于所有大学和非营利组织，需要签署并发送表格才能获得

Khan

2021-08-24

NLP

0 0

MCTest

提供一组660个故事和相关问题，用于研究机器对文本的理解、回答问题

Khan

2021-08-24

NLP

0 0

澳大利亚新闻标题[Kaggle]

包含15年内（2003年初至2017年）澳大利亚广播公司发布的130万条新闻的标题，深入研究关键词，可以看到所有塑造了过去十年的 ...

Khan

2021-08-24

NLP

0 0

材料安全数据表

230,000份材料安全数据表，包含化学成分、急救措施、储存和处理等信息（3 GB）

Khan

2021-08-24

NLP

0 0

欧洲语言机器翻译

Khan

2021-08-24

NLP

0 0

20万英语笑话文本

来源于各个地方的208,000个纯文本笑话

Khan

2021-08-24

NLP

0 0

Jeopardy

包含216,930个危险问题

Khan

2021-08-24

NLP

0 0

识别文本中的关键短语

Question / Answer pairs + context；如果与问题/答案有关，则判断上下文关系\

Khan

2021-08-24

NLP

0 0

Home Depot产品搜索相关性[Kaggle]

包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估，并给出1—3的相关性评分，可用来预测相关性

Khan

2021-08-24

NLP

0 0

希拉里克林顿的电子邮件[Kaggle]

美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件

Khan

2021-08-24

NLP

0 0

仇恨言语识别

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本：a）包含仇恨言论；b）是冒犯性的，但没有仇恨 ...

Khan

2021-08-24

NLP

0 0

哈佛图书馆

哈佛图书馆藏书记录已超过1,200万册，包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料（4GB）

Khan

2021-08-24

NLP

0 0

Gutenberg EBooks

电子书基本信息的注释列表

Khan

2021-08-24

NLP

0 0

Google Web 5gram

包含n-gram及其观察到的频率计数。n-gram的长度从unigrams（单个单词）到5-gram，主要用于统计语言建模（24 GB）

Khan

2021-08-24

NLP

0 0

Google Books Ngrams

包含在整个语料库中出现超过40次的n-gram，优化了快速查询小组短语的用法

Khan

2021-08-24

NLP

0 0

GigaOM WordPress Challenge [Kaggle]

预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息（1.5 GB）

Khan

2021-08-24

NLP

0 0

Freebase Quad Dump

Freebase中所有当前事实和主张的数据转储（35 GB）

Khan

2021-08-24

NLP

0 0

Freebase数据转储

是一个开放的世界信息数据库，包含电影、音乐、人物、地域在内的数百个类别的数百万个主题（26GB）

Khan

2021-08-24