论文部分内容阅读
当前连续密度HMM模型的语音识别系统性能良好,但其存储和计算需求过大。针对这一问题,本论文专注于语音识别系统的核心——声学模型。本文分别从训练方法、特征降维、模型参数压缩三个方面研究如何获得高效小巧的声学模型,在保证模型精度的前提下使用尽小可能的参数量,降低系统资源需求。基于已有的方法,我们提出及推广了一系列新方法,以实验证明了它们的有效性。这些方法主要集中在以下几个方面。 首先,本文研究了最小分类错误方法,实现了基于N-best解码的训练方法。实验证实,在保证模型精度的前提下,经MCE训练的模型可显著减小。我们并将其推广到子空间分布聚类HMM模型上,在很大程度上弥补了在将CDHMM转换成SDCHMM的过程中由于特征空间分裂和子空间分布聚类带来的性能降低。与直接由CDHMM转换而成的SDCHMM相比,性能提升15-80%。 其次,为了解决特征降维方法通常也降低识别性能的问题,我们提出了在区分性特征提取框架下按照最小分类错误准则调整模型参数和特征降维变换的方法,效果极为明显。更进一步,我们提出了以LDA变换执行的集去相关与降维于一体的新的特征提取方法,并将该方法同样纳入区分性特征提取框架之中。利用该方法,14维特征获得了与39维MFCC同样的性能,显著降低了计算和存储的需求。 再次,针对声学模型中各个状态对系统性能的贡献不同,提出了以贪心算法实现的基于似然度、Kullback-Leibler散度和状态间分散度的HMM模型各状态高斯分布数的确定方法。在总高斯分布数目给定前提下,分别最大化训练数据的似然度,最小化当前模型与“真正”模型之间的距离和最大化模型各状态间之分散度。其中基于状态间分散度的方法融入了状态间的竞争信息,具有区分性的特性。实验结果表明这几种方法相较基于贝叶斯信息准则的方法性能更佳。在相同模型精度的前提下,都可不同程度地减少参数。 最后,本文对声学模型特征级参数聚类进行了研究。在进行特征级参数聚类时我们提出采用具有信息熵意义的KLD作LBG聚类,聚类性能良好。而基于不同维的特征区分性信息多寡的不同,我们分别提出了各标量维高斯核的基于KLD和似然度的非均一分配法。在总高斯核数不变原则下,利用贪心算法在不同维之间进行高斯核的优化分配来最小化压缩模型与原始模型间的KLD和最大化训练数据的似然度。这两种非均一分配方法比均一分配性能更佳。而基于似然度的方法又优于基于KLD的方法。这些方法在保证模型性能基本不降的同时将模型参数压缩到原来的15%左右。此时加减需求为原来的50%左右,而乘除的需求则可大幅减少为1%以内。对于孤立词任务,相应的乘除运算更降到未压缩模型的0.05%左右。