18. 皮马印第安人糖尿病数据集
这是另一个用于分类练习的医疗保健数据集。它来自美国国家糖尿病、消化和肾脏疾病研究所,其目的是根据某些诊断指标来预测患者是否患有糖尿病。
该数据集包含 768 个观测值,具有 8 个输入特征和 1 个输出特征。它不是一个均衡的数据集,并且假设缺失值被替换为 0。
1 数据集样本
我们加载数据,看看它是什么样的:
<span class="n">data</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="n">f</span><span class="s2">".</span><span class="se">\\</span><span class="s2">Datasets</span><span class="se">\\</span><span class="s2">pima-indians-dataset.csv"</span><span class="p">)</span>
<span class="n">data</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
2 这个公共数据集适合解决什么问题?
它是另一个适合练习二元分类的数据集。
3 有用的链接
从以下链接中可以找到关于这个数据集的更多信息: