ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本:a)包含仇恨言论;b)是冒犯性的,但没有仇恨 ...
预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息(1.5 GB)
Freebase中所有当前事实和主张的数据转储(35 GB)
是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题(26GB)
社交媒体上用户按个人喜好分类内容的树形数据集,包含7,121位Flickr的树
新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章的标题(200 MB)
包含从1951年到2014年的经济新闻,可根据新闻报道判断该文章是否与美国经济情况相关,如果是,报道的基调是什么
包含delicious.com上的125万个书签(170 MB)
收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或 ...
斯坦福收集的3500万条亚马逊评论,跨度18年