BBC 新闻数据集

68次
2023-03-11

BBC 新闻数据集

我们再来看这个类别中另一个有趣的文本数据集。该数据集来自 BBC 新闻。它由 2225 篇文章组成,每篇文章都有标签。所有文章分成 5 个类别:科技、商业、政治、娱乐和体育。这个数据集没有失衡,每个类别中的文章数量都是差不多的。

1 数据集样本

我们加载数据,看看它是什么样的:

<span class="n">data</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="n">f</span><span class="s2">".</span><span class="se">\\</span><span class="s2">Datasets</span><span class="se">\\</span><span class="s2">BBC News Train.csv"</span><span class="p">)</span>
<span class="n">data</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
BBC 新闻数据集 (http://ds.jsai.org.cn/) 机器学习 第1张

2 这个公共数据集适合解决什么问题?

自然,这个数据集最适合用于文本分类练习。你也可以更进一步,练习分析每篇文章的情绪。总的来说,它适用于各种 NLP 任务和实践。

3 有用的链接

从以下链接中可以找到关于这个数据集的更多信息:

  • Kaggle(kaggle.com/c/learn-ai-b)
END

发表评论