170万个YouTube视频的简介
2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)
从2006年1月至2015年8月31日所有公开可用的Reddit推荐帖(42 GB)
一周内(2017年8月24日至2017年8月30日)全球在线发布的大多新闻内容的快照,包括大约140万篇文章、20,000个新闻来源和20多 ...
所有《纽约时报》的Facebook帖子
230,000份材料安全数据表,包含化学成分、急救措施、储存和处理等信息(3 GB)
来源于各个地方的208,000个纯文本笑话
包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法
来自管理联邦采购数据系统(FPDS-NG)的联邦采购数据中心(FPDC)的转储,真实性和准确性已受承诺(180 GB)