英文维基百科从2006年11月4日开始使用一些公开的NLP工具进行处理,共1,490,688个条目(6 GB)
一周内(2017年8月24日至2017年8月30日)全球在线发布的大多新闻内容的快照,包括大约140万篇文章、20,000个新闻来源和20多 ...
德语报刊文本的句法注释语料库,适用于所有大学和非营利组织,需要签署并发送表格才能获得
欧洲语言机器翻译
带有Freebase标识符注释的ClueWeb11(92 GB)
带有Freebase注释的ClueWeb09和ClueWeb12语料库(72 GB)
MMID是一个大规模,大规模多语种的图像数据集,与它们所代表的单词在宾夕法尼亚大学收集。数据集是双重平行的:对于每种语言 ...
ParaCrawl 是一套大型平行公司,通过广泛的网络爬行工作,为所有欧盟官方语言提供往返英语的辅助。从识别带有翻译文本的网站 ...
由包含 102 种语言的圣经翻译创建的平行语料库file_type。
包含两个用于跨语言摘要的数据集:ZH2ensum 和 EN2ZHSUM。有370,759对英语到中文的跨语言总结(CLS)对从ENSUM和1,699,71 ...