大规模 - 第 7 页 - 数据集市

当前位置：

首页
TAG:大规模

莱比锡科波拉收藏

67

莱比锡科波拉收藏

包含 252 种语言的 Web 爬行新闻corpora的数据集。， lang：多语言，迭代： --, file_type：文本，任务：文本Corpora

2021-08-24

课程科珀斯采矿和多阶段微调，以改善讲座翻译

NLP

50

课程科珀斯采矿和多阶段微调，以改善讲座翻译

讲座翻译是口语翻译的一个案例，因此缺乏为此目的公开的平行公司。为了解决这个问题，我们研究了一个语言独立的平行语料库挖 ...

2021-08-24

济州岛数据集用于机器翻译和语音合成

NLP

116

济州岛数据集用于机器翻译和语音合成

济州岛于2010年被联合国教科文组织列为极度濒危物种。虽然为振兴它作出了各种努力，但几乎没有计算方法。受此激励，我们构建 ...

2021-08-24

句子对齐的口语的多语种语料库（MaSS）

NLP

120

句子对齐的口语的多语种语料库（MaSS）

数据集包括8 种语言（56 种语言对）的 8，130 个并行口语。语言：巴斯克语、英语、芬兰语、法语。匈牙利语，罗马尼亚语，俄 ...

2021-08-24

EPIE数据集：可能惯用表达的语料库

NLP

55

EPIE数据集：可能惯用表达的语料库

惯用表达一直是语言理解和自然语言理解的瓶颈，特别是机器翻译（MT）等任务。MT 系统主要产生惯用表达的字面翻译，因为它们 ...

2021-08-24

德国指定实体识别法律文件数据集

NLP

51

德国指定实体识别法律文件数据集

我们描述了德国联邦法院判决中为指定实体识别而开发的数据集。它包括大约67，000句子和超过200万个代币。该资源包含 54，000 ...

2021-08-24

科珀斯代码混合泰米尔英语文本中的情绪分析创建

NLP

85

科珀斯代码混合泰米尔英语文本中的情绪分析创建

了解视频或图像中的评论情绪是许多应用程序中必不可少的任务。对文本的情绪分析可用于各种决策过程。其中一个应用是根据观看 ...

2021-08-24

数据集制图：利用培训动态绘制和诊断数据集

NLP

53

数据集制图：利用培训动态绘制和诊断数据集

大型数据集在 NLP 研究中已司空见惯。然而，对数据量的日益重视使得评估数据质量变得困难。我们引入数据地图---基于模型的工 ...

2021-08-24

多选阅读理解

NLP

111

多选阅读理解

描述：Dataset包含超过 200，000 个填补空白（克隆）的多选阅读理解问题，这些问题由最不发达国家英语千兆字新闻库构建。， ...

2021-08-24