六大方言区重口音普通话语音识别数据库3000小时

发布日期:2015-09-28

 

重口音普通话数据库的采集工作在中国六个方言地区完成。录制地区、语种、时长、人数信息如下:

 

录制地区

录制语种

每地区数据库时长

每地区

录制人数

粤语地区(广东省)

广东口音普通话

500小时

500人

闽语地区(福建省)

福建口音普通话

500小时

500人

湖南官话(湖南省)

湖南口音普通话

500小时

500人

四川官话(四川省)

西南口音普通话

500小时

500人

吴语地区(浙江,江苏,安徽等)

吴语口音普通话

500小时

500人

赣语地区(江西省)

江西口音普通话

500小时

500人

合计

3000小时

3000人

 

 

总共采集了3000人的语音数据,所有发音人具有明显口音,朗读自然流利。男女性别比接近1:1。

该数据库总有效时长3000小时,数据采样率为16K,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。

 

语音采集设备是智能手机,采用基于Android系统的多种品牌型号手机进行录制;

录音环境有室内、室外多种真实场景。

 

全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于2%。

 

该数据库覆盖全国主要方言区口音,数据库规模大,数据标注质量高,可用于语音识别系统训练、测试、语音分析、口音研究等多种用途。