包含大量路透社新闻报道,主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季,NIST接管了RCV1,所以现 ...
新英格兰爱国者队在美国橄榄球联合会(AFC)决赛中击败印第安纳波利斯小马队,将在2月1号的超级碗大赛中迎战西雅图海鹰队。 ...
自驾车:阅读推文,将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的,并标记其是否与自驾车相关
收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月,评论者需选择正面、负面和中性中的一类,如有 ...
170万个YouTube视频的简介
包括餐厅排名和220万条评论
英文维基百科从2006年11月4日开始使用一些公开的NLP工具进行处理,共1,490,688个条目(6 GB)
匿名化的Yahoo!搜索日志与相关性判断(1.3 GB)
n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)
包含n-gram表示形式,这些数据可以作为查询重写任务的测试平台,这是IR研究中的一个常见问题,也是NLP研究中常见的单词和句 ...
RDF数据(2 GB)
包含一小部分含有复杂HTML表单的页面,共计267万个复杂表单(50+ GB)
Yahoo! Answers corpus的子集,并根据语言属性进行选择,包含142,627个问题及其答案。
Yahoo! Answers corpus from 2006 to 2015的子集,包含170万个法语问题以及相应的答案(3.8 GB)
2017年10月25日创建,包含4,483,032个问题及其答案(3.6 GB)
维基媒体基金会提供的完整副本,以wikitext源代码和嵌入XML的元数据形式提供(500 GB)
英文维基百科的处理转储(66 GB)
包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是 ...
2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)
截至2016年5月,包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库(238 MB)