六大方言区重口音普通话语音识别数据库3000小时

发布日期:2015-09-28

重口音普通话数据库的采集工作在中国六个方言地区完成。录制地区、语种、时长、人数信息如下：

总共采集了3000人的语音数据，所有发音人具有明显口音，朗读自然流利。男女性别比接近1:1。

该数据库总有效时长3000小时，数据采样率为16K，采样精度是16bit，为单通道录音，并以PCM非压缩文件格式存储。

语音采集设备是智能手机，采用基于Android系统的多种品牌型号手机进行录制；

录音环境有室内、室外多种真实场景。

全部录音数据与录音文本均由标注团队成员细心校对，保证句错误率低于2%。

该数据库覆盖全国主要方言区口音，数据库规模大，数据标注质量高，可用于语音识别系统训练、测试、语音分析、口音研究等多种用途。