包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)
包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法