数据集包含 30 万英镑音符, 每个音调、音色和信封 --, file_type。
包含两个用于跨语言摘要的数据集:ZH2ensum 和 EN2ZHSUM。有370,759对英语到中文的跨语言总结(CLS)对从ENSUM和1,699,71 ...
关系分类是信息提取的关键课题之一,可用于建立知识基础或为答题提供有用的信息。目前的关系分类方法主要侧重于英语,需要大 ...
在采访与言语障碍者共事的人时,我们了解到言语障碍者难以与周围不懂手语的人沟通,这种情况可能导致他们与社会隔离开来,失 ...
不同领域的带注释数据集对于许多基于监督的基于学习的相关问题的解决方案以及对建议的解决方案的评估至关重要。自然语言处理 ...
统计自然语言推理 (NLI) 模型容易受到学习数据集偏差的影响:表面暗示,恰好与特定数据集上的标签相关联,但一般没有用处 ...
打击网上仇恨言论是一项关键但具有挑战性的任务,但使用自然语言处理 (NLP) 技术可以提供帮助。先前的研究主要侧重于开发N ...
我们在这部作品中介绍了英语文学作品核心注释的新数据集,涵盖了 100 部小说作品中的 210,532 个令牌中的 29,103 个提及。 ...
共同点是创造、修复和更新相互理解的过程,这是自然语言对话的一个基本方面。然而,解释共同接地的过程是一项具有挑战性的任 ...
临床记录不能“按现状”直接共享。在医院之外访问临床记录的一个必要前提是删除或彻底删除/替换所有提到的与隐私相关的受保护 ...
与医学或生物科学相关的生物医学实体类型之一是化合物和药物。正确检测这些实体对于基于这些实体的其他文本挖掘应用至关重要 ...
最近的研究表明,使用微调的语言模型[(LM)进行密集检索的有效性。然而,密集的猎犬很难训练,通常需要经过大量工程的微调 ...
数据集包含必应查询日志作为问题源。每个问题都链接到一个维基百科页面,该页面可能具有答案。 朗:英语,迭代:3,047,fil ...
Dataset包含类似语言和方言新闻文本的简短摘录 file_type。
数据集由细粒度注释组成,用于 Google Play 商店的移动应用程序评论。对于每个用户审查上述应用程序方面,即设计或可用性, ...
细粒度实体打字是一项具有挑战性的任务,具有广泛的应用。但是,此任务的大多数现有数据集都是英文的。本文介绍了中国细粒度 ...
包含 252 种语言的 Web 爬行新闻corpora的数据集。, lang: 多语言, 迭代: --, file_type: 文本, 任务: 文本Corpora
创建开放域聊天机器人需要大量的会话数据和相关基准任务来评估它们。标准化评估任务对于创建模型开发的自动评价指标至关重要 ...
我们引入了一个新的数据集,用于培训和评估基础语言模型。我们的数据是在虚拟现实环境中收集的,旨在模拟语言前儿童可能获得 ...
基于Corpus的集扩展(即根据给定语料库和一小组种子查找属于同一语义类的"完整"实体)是知识发现中的一项关键任务。它可以促 ...