论文部分内容阅读
语音识别是非常重要的人机交互技术,但是在常用的语音识别系统中采用的都是低阶的N-gram语言模型,它注重邻近约束而忽略了句子中的长距离依存关系,因此,将长距离信息结合到语音识别的过程中去,可以融合更多的词语搭配信息,进一步提升语音识别的性能。本文基于依存句法分析进行了长距离依存关系的挖掘以及建模,并且结合其特性将其合理应用到语音识别的后处理中,主要研究工作包括:1、基于依存词对的长距离语言模型的建模。采用依存句法分析得到了具有长距离依存关系的词对,并通过实验确定了其最优的词对关联度指标;提出了将基于依存词对的长距离语言模型与其他语言模型相结合的加权融合算法,有效提升了其他语言模型的建模能力,使其更准确地反映词对间存在搭配关系的概率。2、依存句法分析在语音识别后处理中的应用。将基于依存词对的长距离语言模型与其他高级语言模型进行加权融合,应用于Lattice的前向重打分;建立了基于词对依存关系下词性搭配的模型,加权联合前面生成的基于依存词对的长距离语言模型作为N-best候选句子的置信度得分标准,在重打分的过程中有效结合高级的语法知识,在一遍解码的基础上进一步提升了语音识别的识别率。实验表明,采用加权融合的基于依存词对的长距离语言模型在测试集上的复杂度降低了 19.93%,在Lattice的N-best候选上采用基于依存词对的长距离语言模型和基于词对依存关系下词性搭配的模型的加权联合方法,使得语音识别系统的词错误率下降了 5.69%。