威斯康星州乳腺癌(诊断)数据集

35次
2023-03-11

威斯康星州乳腺癌(诊断)数据集

机器学习和深度学习技术在医疗保健领域中的应用正在稳步增长。如果你想练习并了解使用此类数据的效果,这个数据集是一个不错的选择。在该数据集中,数据是通过处理乳房肿块的细针穿刺(FNA)的数字化图像提取出来的。该数据集中的每个特征都描述了上述数字化图像中发现的细胞核的特征。

该数据集由 569 个样本组成,其中包括 357 个良性样本和 212 个恶性样本。这个数据集中有三类特征,其中实值特征最有趣。它们是从数字化图像中计算出来的,包含有关区域、细胞半径、纹理等信息。

1 数据集样本

我们加载数据,看看它是什么样的:

<span class="n">data</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="n">f</span><span class="s2">".</span><span class="se">\\</span><span class="s2">Datasets</span><span class="se">\\</span><span class="s2">breast-cancer-wisconsin.csv"</span><span class="p">)</span>
<span class="n">data</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
威斯康星州乳腺癌(诊断)数据集 (http://ds.jsai.org.cn/) 机器学习 第1张

2 这个公共数据集适合解决什么问题?

这个医疗保健数据集适合练习分类和随机森林、SVM 等算法。

3 有用的链接

从以下链接中可以找到关于这个数据集的更多信息:

  • Kaggle(kaggle.com/uciml/breast)
  • UCI(archive.ics.uci.edu/ml/
END

发表评论