170万个YouTube视频的简介
包括餐厅排名和220万条评论
n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)
包含n-gram表示形式,这些数据可以作为查询重写任务的测试平台,这是IR研究中的一个常见问题,也是NLP研究中常见的单词和句 ...
包含一小部分含有复杂HTML表单的页面,共计267万个复杂表单(50+ GB)
英文维基百科的处理转储(66 GB)
包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是 ...
2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)
730万个stackoverflow问题+其他stackexchanges(查询工具)
从2006年1月至2015年8月31日所有公开可用的Reddit推荐帖(42 GB)