WMT 2011 News Crawl data 是一个自然语言翻译数据,从 Europarl corpus 语料中提取得到,包括:French-English、Spanish-English、German-English、Czech-English 语言对之间对应的文字描述。
提供的数据主要取自Europarl语料库的版本6。访问Europarl网站获取源代码版本。
其他培训数据来自新的新闻评论语料库。Europarl语料库的每种语言大约有4500万个单词的培训数据,而News Commentary语料库的大约200万个单词。