电离层数据集
这也是一个经典数据集。它实际上起源于 1989 年,但它确实很有趣。该数据集包含由拉布拉多鹅湾的雷达系统收集的数据。该系统由 16 个高频天线的相控阵列组成,旨在检测电离层中的自由电子。一般来说,电离层有两种类型的结构:“好”和“坏”。这些雷达会检测这些结构并传递信号。数据集中有 34 个自变量和 1 个因变量,总共有 351 个观测值。
1 数据集样本
我们加载数据,看看它是什么样的:
<span class="n">data</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="n">f</span><span class="s2">".</span><span class="se">\\</span><span class="s2">Datasets</span><span class="se">\\</span><span class="s2">ionsphere.csv"</span><span class="p">)</span>
<span class="n">data</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
2 这个公共数据集适合解决什么问题?
这显然是一个二元(2 类)分类问题。有趣的是,这是一个不均衡的数据集,所以你也可以用它做这种练习。在这个数据集上实现高精度也非易事,基线性能在 64% 左右,而最高精度在 94% 左右。
3 有用的链接
从以下链接中可以找到关于这个数据集的更多信息: