日语语音识别数据库600小时

发布日期:2019-01-23

日语语音识别数据库在日本本土及中国国内开展录音采集,录音人均是日语母语发音人,用日语标准语录制。

该数据库共采集人数约550人,该数据库总有效时长600小时。发音人覆盖日本关东地方、近畿地方、中部地方、北海道/东北地方、四国/中国/九州地方等地区。年龄覆盖18-70岁,男女比例均衡。

录音环境是安静无回声的室内环境。采用的录音设备是高端智能手机,数据的规格为:16kHz、16bit、MONO,非压缩PCM格式存储。

全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于5%。

该日语数据库录音质量高,以纯自然发音方式,覆盖年龄及地区范围广,标注质量高,可用于日语语音识别系统训练、测试、语音分析等多用途。

相关数据