Dataset包含超过 3900 万篇在计算机科学、神经科学和生物医学领域发表的研究论文 file_type。
科学文献的发展速度比以往任何时候都要快。由于出版物数量不断增加,以及专业领域日益多样化,在特定科学领域寻找专家从未像 ...
要从预先训练的语言模型中获取高质量的句子嵌入,它们必须增加额外的预培训目标,或对大量标记文本对进行精细调整。虽然后一 ...
鉴于一小套种子实体(例如,"美国","俄罗斯"),基于语料库的集扩展是诱导一组广泛的实体,这些实体共享相同的语义类(本例 ...