论文部分内容阅读
语言模型训练语料的数据稀疏性问题,一直是语音识别任务所面临的一个严重问题。基于领域语法扩展训练语料的方法,能够有效地缓解特定域语言模型训练数据稀疏性问题。本文在领域语法的基础上,提出了一种基于语言模型N元文法(Ngram)的语料扩展算法。该算法通过统计领域语法的Ngram,对Ngram进行扩展,并训练语言模型。实验表明,将该方法应用于特定域语音识别系统中,不仅能提高语音识别系统的识别性能,还能加快语言模型的训练速度,降低语言模型训练对服务器硬盘空间的需求。