公开数据集中最常用的英文语料,其中包含了1000小时的16kHz有声书录音,并且经过切割和整理成每条10秒左右的、经过文本标注 ...
希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时,是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的 ...
希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHEL ...
TIMIT(英语:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器、麻省理工学院和SRI Internati ...
本语料库的录制文本为日常用语。采集方式为手机录音;录音输出为PCM格式。37名来自日本不同区域(如东京、大阪、北海道等) ...
该数据用于2019年AISHELL演讲者验证挑战赛。它是从一个名为AISHELL-WakeUp-1的较大数据库中提取的。
这是第一个用于识别3种离散情感的阿拉伯自然音频数据集(ANAD):快乐,愤怒和惊讶。
Freesound现场录音的标准10秒摘录的数据集。由丹·斯托威尔(Dan Stowell)于2013年7月在伦敦QMUL数字音乐中心策划。基于巴塞 ...
该数据集是于鸟类音频检测挑战赛(2016/2017)的第二个数据集。
该语料库是为了评估端到端会话语音翻译质量而创建的。语料库是通过Skype上的实际对话创建的,我们提供了有关录制设置以及相 ...
HUE团队的使命是通过发明能够增强情绪适应力和幸福感的新技术来增强人们的能力。
一代语音助理,如 Siri、Cortana 和 Google Now 已成为流行的语音对话系统。最近,我们看到基于文本的对话代理(也称为聊天 ...
UCF Sports dataset consists of a set of actions collected from various sports which are typically featured on broadc ...
The dsd100 is a dataset of 100 full lengths music tracks of different styles along with their isolated drums, bass, ...
ESC 数据集是一组以统一格式提供的短期环境记录(5 秒长剪辑、44.1 kHz、单通道、Ogg Vorbis 压缩 = 192 kbit/s)。所有剪辑 ...
The sigsep musdb18 data set consists of a total of 150 full-track songs of different styles and includes both the st ...
Terms of use Read the license notice. History pdsounds.org was a Drupal-based sharing platform for public domain ...
VoxForge 创建的初衷是为免费和开源的语音识别引擎收集标注录音(在 Linux/Unix,Windows 以及 Mac 平台上)。
The WSJ0 Hipster Ambient Mixtures (WHAM!) dataset pairs each two-speaker mixture in the wsj0-2mix dataset with a uni ...
FineGym数据集的概述。我们在时间和语义上都提供了从粗到细的注释。一共有三个级别的分类标签。时间维度(由两个条形表示) ...