ASR-CMN-024慧听徐州话语音识别数据库

发布日期:2024-04-10

该库在江苏省徐州市开展语音采集工作。采集范围包括:泉山区、鼓楼区、云龙区、贾汪 区、铜山区、睢宁县、沛县、丰县;下辖市:邳州市、新沂市等地。

该数据库总共采集了800人的语音数据,男女比例均衡。
所有发音人可以说地道山东话,发音自然流利。

数据总时长400小时,数据采样率为16 kHz,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。

语音采集设备是智能手机,采用多种品牌型号的智能手机进行录制。
录音环境以室内录制为主。

全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于5%。

该数据库用地道徐州话录制,录音质量好,数据标注质量高,可用于语音识别系统训练、测试、语音分析、方言研究等多种用途。

 

相关数据