六大方言区重口音普通话语音识别数据库3000小时
重口音普通话数据库的采集工作在中国六个方言地区完成。录制地区、语种、时长、人数信息如下:
录制地区 |
录制语种 |
每地区数据库时长 |
每地区 录制人数 |
粤语地区(广东省) |
广东口音普通话 |
500小时 |
500人 |
闽语地区(福建省) |
福建口音普通话 |
500小时 |
500人 |
湖南官话(湖南省) |
湖南口音普通话 |
500小时 |
500人 |
四川官话(四川省) |
西南口音普通话 |
500小时 |
500人 |
吴语地区(浙江,江苏,安徽等) |
吴语口音普通话 |
500小时 |
500人 |
赣语地区(江西省) |
江西口音普通话 |
500小时 |
500人 |
合计 |
3000小时 |
3000人 |
总共采集了3000人的语音数据,所有发音人具有明显口音,朗读自然流利。男女性别比接近1:1。
该数据库总有效时长3000小时,数据采样率为16K,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。
语音采集设备是智能手机,采用基于Android系统的多种品牌型号手机进行录制;
录音环境有室内、室外多种真实场景。
全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于2%。
该数据库覆盖全国主要方言区口音,数据库规模大,数据标注质量高,可用于语音识别系统训练、测试、语音分析、口音研究等多种用途。