生成带有预培训语言模型的数据集免费

Khan 48 2021-08-24 NLP

资源介绍

要从预先训练的语言模型中获取高质量的句子嵌入,它们必须增加额外的预培训目标,或对大量标记文本对进行精细调整。虽然后一种方法通常优于前者,但它需要人类付出巨大努力才能生成足够大小的合适数据集。在本文中,我们展示了如何利用大型预培训语言模型来获得高质量的嵌入,而无需任何标记数据、微调或修改其培训前目标:我们利用其生成能力从零开始生成标记文本对的整个数据集,然后可用于定期对小得多的模型进行微调。我们完全不受监督的方法在几个英语语义文本相似性数据集上优于强基线。

END

发表评论

猜你喜欢