包含大量路透社新闻报道,主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季,NIST接管了RCV1,所以现 ...
n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)
包含n-gram表示形式,这些数据可以作为查询重写任务的测试平台,这是IR研究中的一个常见问题,也是NLP研究中常见的单词和句 ...
[Kaggle]数据集的子集(8 GB)
包含Open Library中所有记录的最新版本的转储
所有NIPS2015论文全文
哈佛图书馆藏书记录已超过1,200万册,包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料(4GB)
Freebase中所有当前事实和主张的数据转储(35 GB)
是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题(26GB)