基于Corpus的集扩展(即根据给定语料库和一小组种子查找属于同一语义类的"完整"实体)是知识发现中的一项关键任务。它可以促进许多下游应用,如信息提取、分类归纳、问题解答和 Web 搜索。要在扩展的集中发现新实体,以前的方法要么根据分布相似性进行一次性实体排名,要么采用基于迭次模式的引导。这些方法的核心挑战是如何处理来自自由文本公司衍生的嘈杂的上下文特征,这可能导致实体入侵和语义漂移。在这项研究中,我们提出了一个新的框架,SetExpan,它解决了这个问题,有两种技术:(1) 一种上下文特征选择方法,选择干净的上下文特征来计算实体-实体分布相似性:(2) 基于排名的无监督合奏方法,用于基于已命名的上下文特征扩展实体集。对三个数据集的实验表明,SetExpan 非常坚固,在平均精度方面优于以前的先进方法。