ASR-CMN-001慧听重口音普通话语音识别数据库

发布日期:2021-06-18

重口音普通话语音识别数据库的采集工作在中国六个方言地区完成。录制地区、语种、时长、人数信息如下:

序号

录制地区

录制语种

每地区数据库时长

每地区

录制人数

1

粤语地区(广东省)

广东口音普通话

500小时

497人

2

闽语地区(福建省)

福建口音普通话

500小时

484人

3

湘语地区(湖南省)

湖南口音普通话

500小时

493人

4

西南官话区(重庆市、四川省等)

西南口音普通话

500小时

515人

5

吴语地区(浙江、江苏省等)

吴语口音普通话

500小时

491人

6

赣语地区(江西省)

江西口音普通话

500小时

490人

 

合 计

3000小时

2970

该数据库的数据采样率为16 kHz,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。

为了保证口音覆盖度,我们进行了大规模的试录音和口音筛选。最终采集了近3000人的语音数据,所有发音人具有明显口音,发音自然流利。男女性别比接近1:1。

语音采集设备是智能手机,采用基于Android系统的多种品牌型号手机进行录制;

录音环境有室内、室外多种真实场景。

全部录音数据与录音文本均由标注团队成员细心校对,进行多轮校对,并通过严格检查,保证句错误率低于2%。

该数据库覆盖全国主要方言区口音,数据库规模大,数据标注质量高,可用于语音识别系统训练、测试、语音分析、口音研究等多种用途。

相关数据