轻口音普通话语音识别数据库200小时

发布日期:2016-12-11

轻口音普通话语音识别数据库在北方地区完成语音采集工作。数据库时长、人数信息如下:

录制地区

录制语种

数据库时长

录制人数

北方地区

普通话

200小时

500人

该数据库总有效时长200小时,数据采样率为16 kHz,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。

总共采集了500人的语音数据,所有发音人没有明显口音,用普通话录音,发音自然流利。

语音采集设备是智能手机,采用基于Android系统的多种品牌型号手机进行录制;

录音环境以室内录制为主。

全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于5%。

该轻口音普通话数据库标注质量高,可用于语音识别系统训练、测试、语音分析、普通话发音研究等多种用途。

相关数据