论文部分内容阅读
本文给出了大数据语音语料库的社会标注策略。首先,引入了针对语音数据标注的六元组模型,将语音资源的自身特征考虑进去,并将标签对象扩展为更为广义的标记。然后,提出基于"兴趣+收获+报酬"的标注模式,并建立标注质量的三层检验机制。通过工程实现和应用,验证了本文方法在效率、质量和成本等方面都具有明显优势。