TXT-001慧听中文词性数据库

发布日期:2021-06-18

慧听中文词性数据库共包含100万条中文句子的词性标注语料。每条句子长度在10字左右,均为日常口语类、短信类。该数据库词性标注的标记及标准,依据的是宾州中文树库标记(The Part-Of-Speech Tagging Guidelines for the Penn Chinese Treebank)。

 

该数据库词性的标注,是由专业的团队标注完成的。该团队成员均为中文、对外汉语专业本科及以上学历水平的人员组成,且经过专门的训练。标注词错误率低于5%。

 

该中文词性数据库可用于语言理解研究、语法研究和语言模型构建等多种用途。

相关数据