论文部分内容阅读
解码器是连续语音识别系统中最能直观反映系统性能的重要组成部分。解码技术的研究目的就是要优化解码过程,使解码器能够在得到较高精度识别结果的同时有着较快的识别速度。本文围绕如何保持解码精度与速度之间的均衡,重点对一遍解码中解码参数的优化以及二次解码过程展开深入研究,主要工作概括为以下四个方面:(1)研究了全局阈值、词尾阈值、激活模型数、令牌数四维剪枝阈值参数的优化,提出了一种多维剪枝阈值参数联合优化的算法。该算法针对目前单一剪枝阈值优化的算法没有考虑到多维阈值参数之间互相影响的问题,首先应用多目标优化理论对阈值参数进行联合优化,然后根据优化结果,采用分段动态阈值的方法进行后处理。实验结果表明,采用新方法优化之后的阈值参数进行一遍解码,解码器的剪枝性能得到明显改善,在保持较高解码精度的同时,大大提高了解码的速度。(2)研究了语言模型权值与插入代价两维解码参数的优化,提出了一种基于词图重估的解码参数优化算法。该算法针对优化过程中参数收敛速度过慢的问题,采用线性搜索与模拟退火搜索相结合的方法对参数空间进行搜索,提高了优化速度,并能使得优化后的参数具有全局最优和对初值稳定性强的优点。实验结果表明,相对于经典的N-Best算法优化,新方法优化的识别速度有所提升,且使用优化后的参数进行一遍解码能更有效降低基线系统词错误率。(3)研究了生成混淆网络实现最小化词错误率解码的过程,提出了一种局部路径对齐的混淆网络生成算法。该算法针对当前主流混淆网络生成算法速度与精度不能兼顾的问题,每次从词图中提取局部路径与基准路径对齐,有效解决了最大后验概率弧对齐算法生成的混淆网络混淆集顺序颠倒的问题;在对齐过程中,根据局部路径与参考路径长度的不同,采取不同的处理方法,也解决了轴对称算法的对齐错误。实验结果表明,新算法生成效率与主流的算法相当,但是其生成混淆网络的解码性能相对于主流算法有所提高。(4)研究了重打分算法,提出了一种基于词图的递归重打分算法。该算法首先把词图变换为一种类似于位置确定的后验概率词图结构,这种结构中的弧只包含声学得分,然后采用该算法搜索出最优结果。与传统的Viterbi重打分的算法相比,新方法无需将知识转化为有限状态机融入到搜索网络中,因此更易结合高层语言学知识进行重打分。实验结果表明,新算法相对于Viterbi搜索的算法,搜索空间大小急剧减少,能很好满足二次解码对速度的要求,且能保持较高的识别精度。