阅读一篇简短文章,并选出它和两篇维基百科文章中的哪一篇最接近
汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题
德语报刊文本的句法注释语料库,适用于所有大学和非营利组织,需要签署并发送表格才能获得
提供一组660个故事和相关问题,用于研究机器对文本的理解、回答问题
包含15年内(2003年初至2017年)澳大利亚广播公司发布的130万条新闻的标题,深入研究关键词,可以看到所有塑造了过去十年的 ...
230,000份材料安全数据表,包含化学成分、急救措施、储存和处理等信息(3 GB)
欧洲语言机器翻译
来源于各个地方的208,000个纯文本笑话
包含216,930个危险问题
Question / Answer pairs + context;如果与问题/答案有关,则判断上下文关系\
包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估,并给出1—3的相关性评分,可用来预测相关性
美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件
ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本:a)包含仇恨言论;b)是冒犯性的,但没有仇恨 ...
哈佛图书馆藏书记录已超过1,200万册,包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料(4GB)
电子书基本信息的注释列表
包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法
预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息(1.5 GB)
Freebase中所有当前事实和主张的数据转储(35 GB)
是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题(26GB)