包含 252 种语言的 Web 爬行新闻corpora的数据集。, lang: 多语言, 迭代: --, file_type: 文本, 任务: 文本Corpora
讲座翻译是口语翻译的一个案例,因此缺乏为此目的公开的平行公司。为了解决这个问题,我们研究了一个语言独立的平行语料库挖 ...
济州岛于2010年被联合国教科文组织列为极度濒危物种。虽然为振兴它作出了各种努力,但几乎没有计算方法。受此激励,我们构建 ...
数据集包括8 种语言(56 种语言对)的 8,130 个并行口语。语言:巴斯克语、英语、芬兰语、法语。匈牙利语,罗马尼亚语,俄 ...
惯用表达一直是语言理解和自然语言理解的瓶颈,特别是机器翻译(MT)等任务。MT 系统主要产生惯用表达的字面翻译,因为它们 ...
我们描述了德国联邦法院判决中为指定实体识别而开发的数据集。它包括大约67,000句子和超过200万个代币。该资源包含 54,000 ...
了解视频或图像中的评论情绪是许多应用程序中必不可少的任务。对文本的情绪分析可用于各种决策过程。其中一个应用是根据观看 ...
大型数据集在 NLP 研究中已司空见惯。然而,对数据量的日益重视使得评估数据质量变得困难。我们引入数据地图---基于模型的工 ...
描述:Dataset包含超过 200,000 个填补空白(克隆)的多选阅读理解问题,这些问题由最不发达国家英语千兆字新闻库构建。, ...