logo
  • 首页
  • 公共数据集
    • 机器学习
    • 图像识别
    • 人脸识别
    • 语音识别
    • 文本语料
    • NLP
    • 标准训练集
  • 行业数据集
    • 机器视觉
    • 医疗图像
    • 自动驾驶
    • 智能交通
    • 能源电力
    • 无人机
  • 框架与工具
    • 国产框架
    • 国外框架
    • 标注工具
    • 其他软件
  • 开放平台
    • 技术开放平台
    • 数据开放平台
    • 测试验证平台
  • 算法教程
  • 关于JSAI
登录 注册
全部 NLP 人脸识别 医疗图像 图像识别 智能交通 机器学习 机器视觉 自动驾驶 语音识别
    当前位置:
  • 首页
  • TAG:大规模
YouTube视频简介
NLP
45

YouTube视频简介

170万个YouTube视频的简介

KhanKhan
2021-08-24
Yelp餐厅评价
NLP
57

Yelp餐厅评价

包括餐厅排名和220万条评论

KhanKhan
2021-08-24
Yahoo! N-Grams 2.0
NLP
111

Yahoo! N-Grams 2.0

n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)

KhanKhan
2021-08-24
Yahoo! N-Gram Representations
NLP
40

Yahoo! N-Gram Representations

包含n-gram表示形式,这些数据可以作为查询重写任务的测试平台,这是IR研究中的一个常见问题,也是NLP研究中常见的单词和句 ...

KhanKhan
2021-08-24
Yahoo!从公开可用网页中提取的HTML表单
NLP
36

Yahoo!从公开可用网页中提取的HTML表单

包含一小部分含有复杂HTML表单的页面,共计267万个复杂表单(50+ GB)

KhanKhan
2021-08-24
WEX
其他软件
40

WEX

英文维基百科的处理转储(66 GB)

KhanKhan
2021-08-24
WestburyLab维基百科语料库
NLP
103

WestburyLab维基百科语料库

包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是 ...

KhanKhan
2021-08-24
WestburyLab USENET语料库
NLP
74

WestburyLab USENET语料库

2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)

KhanKhan
2021-08-24
Stackoverflow
NLP
61

Stackoverflow

730万个stackoverflow问题+其他stackexchanges(查询工具)

KhanKhan
2021-08-24
Reddit推荐帖语料库
其他软件
98

Reddit推荐帖语料库

从2006年1月至2015年8月31日所有公开可用的Reddit推荐帖(42 GB)

KhanKhan
2021-08-24
123...7
Copyright 2019-2021 www.jsai.org.cn ©All Rights Reserved.版权所有。 苏ICP备20008440号-1