13.YouTube-8M 数据集
这是最大的多标签视频分类数据集。它来自谷歌,拥有 800 万个带有注释和 ID 的 YouTube 分类视频。这些视频的注释由 YouTube 视频注释系统使用 48000 个视觉实体的词汇表创建。该词汇表也可供下载。
请注意,此数据集可用作 TensorFlow 记录文件。除此之外,你还可以使用这个数据集的扩展——YouTube-8M Segments 数据集。它包含了人工验证的分段注释。
1 数据集样本
你可以使用以下命令下载它们:
<span class="n">mkdir</span> <span class="o">-</span><span class="n">p</span> <span class="o">~/</span><span class="n">yt8m</span><span class="o">/</span><span class="mi">2</span><span class="o">/</span><span class="n">frame</span><span class="o">/</span><span class="n">train</span>
<span class="n">cd</span> <span class="o">~/</span><span class="n">yt8m</span><span class="o">/</span><span class="mi">2</span><span class="o">/</span><span class="n">frame</span><span class="o">/</span><span class="n">train</span>
<span class="n">curl</span> <span class="n">data</span><span class="o">.</span><span class="n">yt8m</span><span class="o">.</span><span class="n">org</span><span class="o">/</span><span class="n">download</span><span class="o">.</span><span class="n">py</span> <span class="o">|</span> <span class="n">partition</span><span class="o">=</span><span class="mi">2</span><span class="o">/</span><span class="n">frame</span><span class="o">/</span><span class="n">train</span> <span class="n">mirror</span><span class="o">=</span><span class="n">us</span> <span class="n">python</span>
2 这个公共数据集适合解决什么问题?
你可以使用这个数据集执行多种操作。比如可以使用它跟进谷歌的竞赛,并开发准确分配视频级标签的分类算法。你还可以用它来创建视频分类模型,也可以用它练习所谓的时间概念定位,也就是找到并分享特定的视频瞬间。
3 有用的链接
从以下链接中可以找到关于这个数据集的更多信息: