ASR-YUE-005慧听香港粤语语音识别数据库

发布日期:2021-06-18

香港粤语语音识别数据库的采集工作在香港地区完成,覆盖了香港多个行政区域。除了考虑地域覆盖之外,在发音人甄选方面,以体现香港口音的纯正粤语为原则。因此,在数据采集方面能够最大限度地保证数据的多样性、真实性和有效性。

该库总共采集了190人以上的语音数据,数据总时长为120小时。所有发音人均是香港本地人,粤语发音纯正,朗读自然流利。男女性别比为 1:1。

语音采集设备为基于 Android、IOS 系统的手机。该数据采样率为 16 kHz,采样精度是 16bit, 为单通道录音,并以 PCM 非压缩文件格式存储。

所有录音数据均在相对安静的室内完成。

全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于5%。

该数据库全面展现香港粤语语音的特色,口音纯正、数据标注质量高,可用于语音识别系统训练、测试、语音分析、粤语研究等多种用途。

相关数据