社交媒体上用户按个人喜好分类内容的树形数据集,包含7,121位Flickr的树
来自管理联邦采购数据系统(FPDS-NG)的联邦采购数据中心(FPDC)的转储,真实性和准确性已受承诺(180 GB)
新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章的标题(200 MB)
可以实时访问全球100,000个新闻源的新闻文章
包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML(2 ...
包含从1951年到2014年的经济新闻,可根据新闻报道判断该文章是否与美国经济情况相关,如果是,报道的基调是什么
包含10,000条和灾难事故相关的带注释推特
包含delicious.com上的125万个书签(170 MB)
包含美国德州自1984年以来每个执行死刑罪犯的遗言(HTML表格)
包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏 ...
英语短语相关的维基百科文章数据库、论文(11 GB)
包含从原始电影脚本中提取的虚构对话集:10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符,共304,7 ...
带有Freebase标识符注释的ClueWeb11(92 GB)
带有Freebase注释的ClueWeb09和ClueWeb12语料库(72 GB)
荷兰语,该语料库包含两种类型的学生文本:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、 ...
收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或 ...
共十个数据集,每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息,另一些则是自由发挥。所有答案 ...
共八个作文集,每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息,另一些则是自由发挥 ...
斯坦福收集的3500万条亚马逊评论,跨度18年
数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论(240 MB)