葡萄酒分类数据集

34次
2023-03-11

葡萄酒分类数据集

这是一个经典之作。如果你喜欢葡萄树或计划成为索马里人,肯定会更中意它的。该数据集由两个数据集组成。两者都包含来自葡萄牙 Vinho Verde 地区的葡萄酒的化学指标,一种用于红葡萄酒,另一种用于白葡萄酒。由于隐私限制,数据集里没有关于葡萄种类、葡萄酒品牌、葡萄酒售价的数据,但有关于葡萄酒质量的信息。

葡萄酒分类数据集 (http://ds.jsai.org.cn/) 机器学习 第1张

1 数据集样本

我们加载数据,看看它是什么样的:

<span class="n">data</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="n">f</span><span class="s2">".</span><span class="se">\\</span><span class="s2">Datasets</span><span class="se">\\</span><span class="s2">winequality-white.csv"</span><span class="p">)</span>
<span class="n">data</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
葡萄酒分类数据集 (http://ds.jsai.org.cn/) 机器学习 第2张

2 这个公共数据集适合解决什么问题?

这是一个多类分类问题,但也可以被定义为回归问题。它的分类数据是不均衡的(例如,正常葡萄酒的数量比优质或差的葡萄酒多得多),很适合针对不均衡数据集的分类练习。除此之外,数据集中所有特征并不都是相关的,因此也可以拿来练习特征工程和特征选择。

3 有用的链接

以下链接中可以找到关于这个数据集的更多信息:

  • 介绍 (vinhoverde.pt/en/about-)
  • UCI(archive.ics.uci.edu/ml/)
END

发表评论