粤语语音识别数据库1000小时

发布日期:2015-09-28

 

粤语数据库的采集工作在粤语地区完成,覆盖了广东省多达110个行政区。根据不同地市在粤语方言区中的语言保存面貌及在语言学上数据采集的地位,

特将主要录制任务定位在广州、珠海、佛山、三水等粤语口音纯正的地区,以经济发达的城市为主。

因此,在数据采集方面能够最大限度地保证数据的多样性、真实性和有效性。

 

该数据库总有效时长1000小时,数据采样率为16K,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。

总共采集了1500人的语音数据,所有发音人均是广东本地人,粤语发音纯正,朗读自然流利。男女性别比接近1:1。

 

语音采集设备是智能手机,采用基于Android、IOS两种系统的多种品牌型号手机进行录制;

录音环境有室内、室外多种真实场景。

 

全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于2%。数据质量优于业内平均水平。

 

该数据库全面展现粤语语音的特色,数据库规模大,数据标注质量高,可用于语音识别系统训练、测试、语音分析、粤语研究等多种用途。

    • 新闻标题