维基媒体基金会提供的完整副本,以wikitext源代码和嵌入XML的元数据形式提供(500 GB)
截至2015年7月的每个公开可用的书签评论,共计17亿条评论(250 GB)
包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法
斯坦福收集的3500万条亚马逊评论,跨度18年
视觉问题解答数据集包含100,000个图像和999,968个问题。100,000 张图片,file_type:JSON,任务:问题解答,视觉
我们在这部作品中介绍了英语文学作品核心注释的新数据集,涵盖了 100 部小说作品中的 210,532 个令牌中的 29,103 个提及。 ...