ASR-CMN-007慧听儿童中英文语音识别数据库

发布日期:2021-06-18

慧听儿童中英文语音识别数据库总共采集了140名儿童的语音数据。录音儿童年龄为5岁~12岁,男女性别比接近1:1。儿童发音自然流利。

录音内容为中英文。中文部分句子长度3~30字,内容为儿歌、童话故事、小学语文1~6年级课文等;英文部分覆盖所有小学英语课本涉及的单词,分为两种读法:按单词发音、按单词的字母拼读。

该数据库总时长47小时。其中,中文部分的总时长为17小时、英文部分的总时长为30小时(包含单词发音24小时、字母拼读6小时)。数据采样率为16 kHz,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。

语音采集设备是高端智能手机。

所有录音数据均在安静、无回声的室内完成。

全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于2%。

该数据库能够反映中国儿童不同年龄段普通话发音与英语发音的特点,数据标注质量高,可用于儿童语音识别系统训练、测试、儿童发音分析、儿童语言教学研究等多种用途。

相关数据