VoxForge 语音库 - 数据集市

VoxForge 创建的初衷是为免费和开源的语音识别引擎收集标注录音（在 Linux／Unix，Windows 以及 Mac 平台上）。

我们以GPL 协议开放所有提交的录音文件，并制作声学模型，以供开源语音识别引擎使用，如CMUSphinx，ISIP，Julias（github）和HTK（注意：HTK 有分发限制）。

为什么需要免费的 GPL 协议的录音？ 开源语音识别（或语音转写）引擎使用的声学模型是**闭源**的。使用者没有接触用于制作这些声学模型的音频和标注文件（即语料库）的权限。造成这一现象的原因是，真正能够用于制作语音识别引擎声学模型的语料库没有免费的。开源项目需要购买有限版权的语料库，也就是说不允许他们分发语料数据，但是可以分发用这些数据制作的声学模型。

如何贡献 点击“用你的计算机提交录音”图标，学习如何用你的计算机录制你的声音并提交至 VoxForge。

下载脚本（python 爬取）：

import urllib
import urllib2
import os
import re
os.chdir('D:\voxforge speech files\')#改变当前路径
#refiles=open('speech_files_path.txt','w+')#存储所有下载连接
mainpath='http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/Audio/Main/16kHz_16bit/'
def gettgz(url):
    page=urllib.urlopen(url)
    html=page.read()
    reg=r'href=".*.tgz"'
    tgzre=re.compile(reg)
    tgzlist=re.findall(tgzre,html)  #找到所有.tgz文件
    for i in tgzlist:
        filename=i.replace('href="','')
        filename=filename.replace('"','')
        print '正在下载：'+filename #提示正在下载的文件
        downfile=i.replace('href="',mainpath)
        downfile=downfile.replace('"','') #得到每个文件的完整连接
        req = urllib2.Request(downfile)  #下载文件
        ur = urllib2.urlopen(req).read()
        open(filename,'wb').write(ur) #把下载的文件以tgz格式存储在D盘
refiles.write(downfile+'
')
html=gettgz(mainpath)
#refiles.close()

或者使用 kaldi 的脚本：

https://github.com/kaldi-asr/kaldi/blob/master/egs/voxforge/s5/getdata.sh

VoxForge 语音库免费

资源介绍

发表评论取消回复

最新文章

热门文章

THUYG-20 维吾尔语语音数据

VGG-Sound

LibriTTS语料库

ESC环境噪音分类数据集

CN-Celeb

标签云

猜你喜欢

VoxForge 语音库免费

资源介绍

发表评论 取消回复

最新文章

热门文章

THUYG-20 维吾尔语语音数据

VGG-Sound

LibriTTS语料库

ESC环境噪音分类数据集

CN-Celeb

标签云

猜你喜欢

THUYG-20 维吾尔语语音数据

VGG-Sound

LibriTTS语料库

ESC环境噪音分类数据集

CN-Celeb

呼吸声音数据集，用于检测呼吸系统疾病

Google Audioset 音频数据集

AISHELL-1 开源中文语音数据库

叠置密集去噪-分割合成标注

固有唤醒词数据库 HI-MIA

发表评论取消回复