普通话对话语音识别数据库1000小时

发布日期:2019-01-23

普通话对话语音识别数据库在国内多地区完成语音采集。每组由2人进行限定话题范围内、无文本的自由对话。覆盖话题种类多达70个,如:餐饮、宠物、政治、法律、求职、房产、购物、健康、交通、教育、科技、理财、留学、母婴、食品、天气、小说、音乐、影响、家居、游戏、服饰等等。

该数据库总有效时长超过1000小时。数据采样率为48 kHz,采样精度是16bit,单通道录音,并以PCM非压缩文件格式存储。

该库总共采集了1400人的对话语音数据。发音人年龄范围18~60岁,来自全国各大方言区。所有发音人用普通话以日常交流方式进行对话,在限定话题范围内自由发挥,发音自然流利。

语音采集设备是高保真桌面麦克,录音环境是相对安静的室内。

全部录音数据与录音文本均由标注团队成员细心校对,保证错误率低于5%。

该普通话对话数据库录音质量高、以纯自然方式发音、覆盖话题范围广泛、标注质量高,可用于语音识别系统训练、测试、语音分析、对话研究等多种用途。

相关数据