这是迄今为止我最喜欢的数据集。我在最近写的书里的大多数示例都来自于它。简单来说,如果你在 Iris 数据集上做实验做腻了就可以尝试一下这一个。它由 Kristen Gorman 博士和南极洲 LTER 的帕尔默科考站共同创建。该数据集本质上是由两个数据集组成的,每个数据集包含 344 只企鹅的数据。
就像 Iris 一样,这个数据集里有来自帕尔默群岛 3 个岛屿的 3 种不同种类的企鹅,分别是 Adelie、Chinstrap 和 Gentoo。或许“Gentoo”听起来很耳熟,那是因为 Gentoo Linux 就是以它命名的!此外,这些数据集包含每个物种的 culmen 维度。这里 culmen 是鸟喙的上脊。在简化的企鹅数据中,culmen 长度和深度被重命名为变量 culmen_length_mm 和 culmen_depth_mm。
1 数据集样本
我们加载数据,看看它是什么样的:
<span class="n">data</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="n">f</span><span class="s2">".</span><span class="se">\\</span><span class="s2">Datasets</span><span class="se">\\</span><span class="s2">penguins_size.csv"</span><span class="p">)</span>
<span class="n">data</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
我们使用 Pandas 库来做数据可视化,并且加载的是一个更简单的数据集。
2 这个公共数据集适合解决什么问题?
它是练习解决分类和聚类问题的好帮手。在这里,你可以尝试各种分类算法,如决策树、随机森林、SVM,或把它用于聚类问题并练习使用无监督学习。
3 有用的链接
在以下链接中可以获得有关 PalmerPenguins 数据集的更多信息:
介绍:https://allisonhorst.github.io/palmerpenguins/articles/intro.html
GitHu:https://link.zhihu.com/?target=https%3A//github.com/allisonhorst/palmerpenguins
Kaggle:https://www.kaggle.com/datasets/parulpandey/palmer-archipelago-antarctica-penguin-data