提供服务
To Provide Services

语音数据库制作

语音数据库文本设计
语音识别数据录制以及文本及语言现象标识
语音合成数据库录制以及音节、音素切分及韵律层次标注
各语种(含小语种)、国内主要方言

音乐数据制作标注

音乐音频制作
哼唱识别库
歌曲曲谱和内容标注
歌曲人声旋律MIDI制作

语音质量评测

评测文本设计
MOS评测、对比评测
各语种(含小语种)、国内主要方言
评测软件工具开发

文本数据标注

文本设计
文档归类、关键词、NER\磁性、Chunk标注等
各语种(含小语种)

配音

音宣传片配音
方言配音

图像数据标注

按定制要求标出图中目标

其他数据制作

手写识别库

热销数据
Sales data
    • 多语种语音识别数据库的采集工作在国外多个国家完成。所有发音人的母语均为对应录制语种,性别比例均衡,发音自然流利,年龄段是15~70岁。
    • 中韩平行语料库总共包含100万对中韩平行语料。其内容包括:新闻、电影、音乐、短文、口语句子等。 该平行语料库数量较大。所有平行语料,在经自动处理后,再由韩语专业的人员进行了筛查、整理、检查,以确保翻译的准确性和内容的正确性。中韩平行语料库可用于机器翻译的用途。
    • 中文词性数据库共包含100万条中文句子的词性标注语料。每条句子长度在10字左右,均为日常口语类、短信类。该数据库词性标注的标记及标准,依据的是宾州中文树库标记(The Part-Of-Speech Tagging Guidelines for the Penn Chinese Treebank)。
    • 该数据库总有效时长1000小时,数据采样率为16K,采样精度是16bit,为单通道录音,并以PCM非压缩文件格式存储。共采集了2700人的语音数据。北方官话区60%,西南官话区10%,吴语10%,粤语区10%,闵湘赣地区10%,男女性别比接近1:1。采用基于Android系统的手机进行录制;录音环境有办公室、餐厅以及街道场景。全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于5% 。
    • 该数据库总有效时长500小时,数据采样率为16K,采样精度是16bit,为单通道录音,并以PCM 非压缩文件格式存储。 总共采集了1400人的语音数据,所有发音人均是广东本地人与港澳人,粤语发音纯正。男女性别比接近1:1。采用基于Android系统的手机进行录制;录音环境有安静室内、嘈杂室内以及有噪音的室外三种真实场景。全部录音数据与录音文本均由标注团队成员细心校对,保证句错误率低于5% 。
    • 该数据库总有效时长3000 小时,数据采样率为16K,采样精度是16bit,为单通道录音,并以PCM 非压缩文件格式存储。 总共采集了3000人的语音数据,所有发音人具有明显口音,朗读自然流利。 男女性别比接近1:1。语音采集设备是智能手机,采用基于Android 系统的多种品牌型号手机录制; 录音环境有室内、室外多种真实场景。录音数据与文本均由标注团队成员细心校对,句错误率低于2%。

 

慧听新闻
新浪微博

慧听数据是个很强大的数据库网站,有过万的数据采集和标注人员。