可以实时访问全球100,000个新闻源的新闻文章
包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML(2 ...
包含美国德州自1984年以来每个执行死刑罪犯的遗言(HTML表格)
包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏 ...
英语短语相关的维基百科文章数据库、论文(11 GB)
共八个作文集,每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息,另一些则是自由发挥 ...
由2004年8月从blogger.com收集的19,320位博主的文章组成,共计681,288篇,字数超过1.4亿——平均每人35篇、7250字(298 MB)
68 tables of curated facts
此数据集提供wikihow.com及其摘要中如何处理文章,这些文章以连贯的段落书写。数据集本身可在维基.zip,并包含文章,摘要, ...
我们介绍了一系列亚马逊评论,专门旨在帮助多语种文本分类的研究。该数据集包含 2015 年 11 月 1 日至 2019 年 11 月 1 日之 ...