论文部分内容阅读
随着连续语音识别技术的不断发展,人们逐渐对语音识别提出了更高的要求,低资源训练数据条件下的语音识别作为一种典型的受限条件下的语音识别,因其识别率低、应用价值大而成为了当今的一个研究热点。低资源条件对特征提取和声学模型两个模块影响极大,通常使用深度学习(Deep Learning)技术提升低资源语音识别(Low-resource Speech Recognition)系统的性能。如何有效提升深度学习模型的训练效果,以及如何对模型进行改进,是亟待解决的关键问题。针对这些问题,论文利用深度学习技术,对低资源语音识别系统中的特征提取和声学建模展开研究和改进,取得三点研究成果:(1)提出一种新颖的基于深层神经网络(Deep Neural Network,DNN)的特征提取方法。针对级联(Tandem)系统中,提取瓶颈(Bottle-Neck,BN)特征时,BN层的存在降低了DNN分类准确率这一缺点,提出一种不改变DNN训练结构的高层特征提取方法。首先训练一个不包含BN层的DNN,然后利用非负矩阵分解(Non-negative Matrix Factorization,NMF)算法对隐含层权值矩阵分解得到基矩阵,作为新形成的特征层的权值矩阵,在该层不设置偏移向量的情况下,通过数据前向传播使用该层的线性输出作为一种新的低维高层特征。实验表明,该特征性能稳定,且适用于不同的识别任务。当使用训练数据相对充足的英语语料时,该特征表现出同BN特征几乎相同的识别性能;而在只有1小时训练数据的低资源条件下,基于该特征的识别系统明显优于DNN混合识别系统和BN-Tandem识别系统。(2)针对低资源训练数据条件下DNN特征的识别性能急剧下降的问题,提出两种适合于低资源语音识别的DNN特征提取方法。首先基于隐含层共享训练的网络结构,借助资源较为丰富的语料实现对低资源BN-DNN的辅助训练,针对BN层位于共享层的特点,引入dropout、maxout、rectified linear units(ReLU)等技术改善多流训练样本分布不规律导致的过拟合问题,同时缩小网络参数规模、降低训练耗时;其次,为了进一步改善多语言训练时的DNN特征的性能,提出一种将凸非负矩阵分解(Convex-Nonnegative Matrix Factorization,CNMF)算法与多语言训练相结合的低维高层特征提取方法:首先使用多语言训练具有共享层结构的DNN,然后针对某一共享层的权值矩阵进行分解,使用得到的基矩阵构建新的特征提取层。基于1小时训练数据的低资源捷克语实验表明,在26.7小时的英语语料辅助训练下,当使用dropout和ReLU时,识别率相对基线系统提升7.0%;当使用dropout和maxout时,识别率相对基线系统提升了12.6%,且网络参数数量相对其他系统降低了62.7%,训练时间降低了25%。而基于CNMF的低维特征适用于不同的DNN训练方案,该特征在单语言训练和多语言训练的两种情况下的识别率都优于BN特征,且在多语言训练时优于DNN混合识别系统,提升幅度从0.8%至3.4%不等。(3)提出一种通过融合多流特征改进低资源卷积神经网络(Convolutional Neural Network,CNN)声学建模的方法。CNN声学模型在训练数据量充足的语音识别任务中取得了优于DNN声学模型的识别率,然而在训练数据不足的低资源条件下,存在网络参数训练不充分的问题。为了利用有限的数据中更多的声学特征信息进行建模,首先对低资源训练数据提取多类特征,然后各类特征构建并行卷积子网络,最后通过全连接层进行融合,得到一种新的CNN结构。实验证明,并行卷积子网络可以将不同特征空间规整得更为相似,且相对传统多特征拼接方法和单特征CNN建模方法分别提升了3.3%和2.1%的识别率;当引入多语言训练时,识别率则分别相对提升了5.7%和4.6%。