包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML(2 ...
包含美国德州自1984年以来每个执行死刑罪犯的遗言(HTML表格)
包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏 ...
英语短语相关的维基百科文章数据库、论文(11 GB)
包含从原始电影脚本中提取的虚构对话集:10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符,共304,7 ...
带有Freebase标识符注释的ClueWeb11(92 GB)
带有Freebase注释的ClueWeb09和ClueWeb12语料库(72 GB)
数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论(240 MB)
由2004年8月从blogger.com收集的19,320位博主的文章组成,共计681,288篇,字数超过1.4亿——平均每人35篇、7250字(298 MB)
MMID是一个大规模,大规模多语种的图像数据集,与它们所代表的单词在宾夕法尼亚大学收集。数据集是双重平行的:对于每种语言 ...