logo
  • 首页
  • 公共数据集
    • 机器学习
    • 图像识别
    • 人脸识别
    • 语音识别
    • 文本语料
    • NLP
    • 标准训练集
  • 行业数据集
    • 机器视觉
    • 医疗图像
    • 自动驾驶
    • 智能交通
    • 能源电力
    • 无人机
  • 框架与工具
    • 国产框架
    • 国外框架
    • 标注工具
    • 其他软件
  • 开放平台
    • 技术开放平台
    • 数据开放平台
    • 测试验证平台
  • 算法教程
  • 关于JSAI
登录 注册
全部 NLP 人脸识别 医疗图像 图像识别 智能交通 机器学习 机器视觉 自动驾驶 语音识别
    当前位置:
  • 首页
  • TAG:超大规模
维基百科XML数据
NLP
39

维基百科XML数据

维基媒体基金会提供的完整副本,以wikitext源代码和嵌入XML的元数据形式提供(500 GB)

KhanKhan
2021-08-24
Reddit评论
NLP
112

Reddit评论

截至2015年7月的每个公开可用的书签评论,共计17亿条评论(250 GB)

KhanKhan
2021-08-24
Google Web 5gram
NLP
50

Google Web 5gram

包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)

KhanKhan
2021-08-24
Google Books Ngrams
NLP
70

Google Books Ngrams

包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法

KhanKhan
2021-08-24
亚马逊评论
NLP
84

亚马逊评论

斯坦福收集的3500万条亚马逊评论,跨度18年

KhanKhan
2021-08-24
构成语言和基本视觉推理的诊断数据集(CLEVR + CoGent)
NLP
77

构成语言和基本视觉推理的诊断数据集(CLEVR + CoGent)

视觉问题解答数据集包含100,000个图像和999,968个问题。100,000 张图片,file_type:JSON,任务:问题解答,视觉

KhanKhan
2021-08-24
英国文学核心的注释数据集
NLP
90

英国文学核心的注释数据集

我们在这部作品中介绍了英语文学作品核心注释的新数据集,涵盖了 100 部小说作品中的 210,532 个令牌中的 29,103 个提及。 ...

KhanKhan
2021-08-24
Copyright 2019-2021 www.jsai.org.cn ©All Rights Reserved.版权所有。 苏ICP备20008440号-1