包含大量路透社新闻报道,主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季,NIST接管了RCV1,所以现 ...
英文维基百科从2006年11月4日开始使用一些公开的NLP工具进行处理,共1,490,688个条目(6 GB)
匿名化的Yahoo!搜索日志与相关性判断(1.3 GB)
RDF数据(2 GB)
Yahoo! Answers corpus from 2006 to 2015的子集,包含170万个法语问题以及相应的答案(3.8 GB)
2017年10月25日创建,包含4,483,032个问题及其答案(3.6 GB)
包含2009年9月至2010年1月twitter收集的基于内容的用户地理定位信息,包含115,886位Twitter用户和3,844,612个位置更新:经度 ...
包含Open Library中所有记录的最新版本的转储
德语报刊文本的句法注释语料库,适用于所有大学和非营利组织,需要签署并发送表格才能获得