随着在线社交网络的普及,监控所有用户生成的内容变得越来越困难。因此,自动化互联网上不当交换内容的适度过程已成为一项优 ...
共同点是创造、修复和更新相互理解的过程,这是复杂的人类交流的一个重要方面。然而,传统的对话制度建立共同点的能力有限, ...
Dataset包含来自客户的负面反馈,其中他们陈述了对给定公司不满意的原因。数据集有英文和意大利文版本,朗:意大利语、英语 ...
科学文献的发展速度比以往任何时候都要快。由于出版物数量不断增加,以及专业领域日益多样化,在特定科学领域寻找专家从未像 ...
要从预先训练的语言模型中获取高质量的句子嵌入,它们必须增加额外的预培训目标,或对大量标记文本对进行精细调整。虽然后一 ...
数据集仅包含电影对话数据集的 QA 部分,但使用三种不同的知识设置:使用传统知识库 (KB)、使用维基百科作为知识来源,或 ...
由包含 102 种语言的圣经翻译创建的平行语料库file_type。
Dataset包含 12.8K 在 POLITIFACT.COM 的各种上下文中手动标记的简短语句,其中提供了详细的分析报告和每个案例源文档的链接 ...
包含两个用于跨语言摘要的数据集:ZH2ensum 和 EN2ZHSUM。有370,759对英语到中文的跨语言总结(CLS)对从ENSUM和1,699,71 ...
关系分类是信息提取的关键课题之一,可用于建立知识基础或为答题提供有用的信息。目前的关系分类方法主要侧重于英语,需要大 ...