上下文改编自 [this][1] 数据集。将文件从 XML 转换为 JSON 并重新组织。内容 包含训练集和测试集之间的 681,288 篇个人博客文章。每篇博文都标有发布者的年龄和性别。所有帖子均来自 2004 年 8 月或更早。每个年龄组(13-17、23-27、33-48)的男性和女性海报数量相同。可以在[此处][2]中找到这些组中每个特定年龄的数量。免费用于非商业用途。致谢 感谢此数据集的原始创建者。对产生和使用此数据集的原始研究的引用:J. Schler、M. Koppel、S. Argamon 和 J. Pennebaker(2006 年)。年龄和性别对博客的影响在 2006 年 AAAI 春季研讨会的论文中使用计算方法分析博客。([pdf][3]) 灵感 我将使用这些数据来训练模型来预测博客文章属于哪个年龄段。[1]:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm [2]:https://docs.google.com/spreadsheets/d/112hNOV0JWkIIOsfRepIMd8ihS752gKhxGPHdlMCl0K8/edit?usp=sharing 3]:http://u.cs.biu.ac.il/~schlerj/schler_springsymp06.pdf