n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)
包含n-gram表示形式,这些数据可以作为查询重写任务的测试平台,这是IR研究中的一个常见问题,也是NLP研究中常见的单词和句 ...