预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息(1.5 GB)
新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章的标题(200 MB)
包含delicious.com上的125万个书签(170 MB)
荷兰语,该语料库包含两种类型的学生文本:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、 ...
截至2011年7月11日所有公开可用的Apache Software Foundation邮件存档(200 GB)
N-grams are fixed size tuples of items. In this case the items are words extracted from the Google Books corpus. The ...
9092个科学问题和68个精选事实表
基于语音的产品搜索改进
14k QA pairs over 1.7K paragraphs, split between train (10k QAs), development (1.6k QAs) and a hidden test partition ...
24K Question/Answer (QA) pairs over 4.7K paragraphs, split between train (19K QAs), development (2.4K QAs) and a hid ...