惯用表达一直是语言理解和自然语言理解的瓶颈,特别是机器翻译(MT)等任务。MT 系统主要产生惯用表达的字面翻译,因为它们不表现出通用和语言决定性模式,可用于理解表达的非组合意义。这些表达方式发生在用于训练的平行下体中,但由于在字面上下文中惯用表达的构成词的发生率相对较高,惯用的意思被表达的组成意义所压倒。最先进的隐喻检测系统能够检测单词级别的非组合用法,但忽略了特殊措辞的特有表达。这就迫切需要一个覆盖范围更广、常见惯用表达式发生率更高的数据集,其跨度可用于隐喻检测。有鉴于此,我们呈现了我们的英语可能习语表达(EPIE)语料库,其中包含25206个句子,标有717个惯用表达的词汇实例。这些跨度还涵盖给定一组惯用表达式的字面用法。我们还通过使用数据集培训序列标签模块和测试三个具有高精度、精度和召回分数的独立数据集来展示数据集的效用。