论文部分内容阅读
近年来,随着应用需求的推进和相关理论的发展,说话人识别的研究取得了很大的进展,国内外研究机构正在积极推动其新理论的研究、新方法的实验和实用化进程,其中,利用短语音进行训练和识别的研究备受关注。从2004年开始NIST(美国国家标准与技术署)在举办说话人识别评测(SRE)时就按照语音长度划分测试项,在语音长度最短的测试项中,训练和识别的语音长度都不大于10秒。从评测的结果来看,与语音长度较长的测试项相比,该测试项性能下降严重。这主要是因为目前的说话人识别系统主要采用概率统计模型,识别性能很大程度上依赖于训练语音和测试语音的匹配程度,而通常采用的短时倒谱特征中同时包含说话人信息和语义信息,其中语义信息的差异会影响训练和识别的匹配程度。文本相关的说话人识别性能远优于文本无关的说话人识别的主要原因就在于它保证了训练和识别中的语义是完全匹配的。但是在文本无关的说话人识别中,如果训练和测试语音太短,两者的语义内容可能存在较为严重的失配现象,而现有的语音信号处理技术不能实现语音中的语义信息和说话人信息的分离,所以这是影响文本无关说话人识别性能的重要因素。为了研究语音长度对说话人识别性能的影响,提高短语音的识别性能,本文研究主要基于以下两个思路展开:1、研究如何克服短语音条件下训练和识别语音的语义不匹配对识别性能的影响,并且针对说话人辨认和说话人确认两种应用,分别提出了解决方法。2、研究如何通过从长度有限的语音中提取尽可能多的语音特征,丰富说话人特征的描述,进而提高短语音条件下说话人识别的性能。本课题的主要贡献和创新点包括以下几个方面:1)提出了基于“说话人属性约束”的特征变换方法,通过相对抑制语义信息对短时倒谱特征分布的影响,突出说话人信息在语音特征空间分布中的作用,使同一说话人的特征分布更集中,不同说话人间的区分更明显,从而提高了短语音说话人辨认的识别率。本文利用语音信号服从内蕴的非线性流形结构分布的特点,基于语音特征在空间中的局部几何结构,构建了近邻关系关联包;利用说话人属性约束变换,减少了短时倒谱特征中语义信息对说话人辨认的影响;并推导出了该变换中的显性变换矩阵,在GMM-UBM(Gaussian Mixture Model-Universal Background Model,混合高斯模型-通用背景模型)模型的基线说话人辨认系统进行了测试。在同一数据集上,跟已有的特征变换方法相比,在训练语音长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,该方法误识率的相对改善率分别为13.48%、9.58%、8.75%、9.90%和11.92%。2)提出了基于UBM(Universal Background Model,通用背景模型)混元子空间的文本无关说话人确认方法,寻找训练语音和测试语音的超向量中语义匹配的单元,充分利用这部分的识别结果,同时,减少超向量特征中语义不匹配部分的影响,降低了短语音说话人确认中的等错误率。本文根据文本相关的说话人识别的性能要远优于文本无关的说话人识别的性能的客观事实,以及训练语音和测试语音中的语义信息不匹配是影响短语音说话人识别性能的主要原因,提出了基于通用背景模型的混元在空间中分布的近邻关系,通过划分混元子空间的方法将文本无关的说话人识别隐性地转换为基于“语义内容”的说话人识别方法。利用语音特征对混元子空间的归属关系,对训练语音和测试语音进行拆分,基于各子空间内的子超向量识别,实现文本无关到“语义内容”相关的转换,最后通过设计合理的融合方法对各子空间的识别结果进行融合。在同一数据集上,本文提出的说话人确认方法和已有的基于子空间的说话人确认系统相比,在训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其等错误率的相对改善率分别为8.67%、10.22%、6.13%、5.00%和6.10%。3)提出了“仿生神经网络激励源”特征,将仿生模式识别的思想引入到说话人激励源建模中,验证了该特征用于说话人识别的有效性,并与基于短时倒谱特征的系统结合,提高了说话人识别的性能。针对现有的基于AANN(Auto-Associate Neural Network,自联想神经网络)方法从LP(Linear Prediction,线性预测)残差中提取激励源特征的不足,提出了基于仿生神经网络的说话人LP残差建模方法,并以此构建了激励源特征和相应的识别系统。该方法避免了传统神经网络中复杂的迭代训练过程,同时利用仿生模式识别的“基于认知而非区分”的思想有效地提高了系统在小样本,也就是短语音条件下的识别效果。在同一数据集上,基于LP残差向量,跟已有的基于AANN的识别方法相比,本文提出的基于仿生神经的识别方法在说话人辨认中,当训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其误识率相对改善率分别为6.98%、11.59%、9.67%、9.00%和18.45%。鉴于在说话人识别中,基于LP残差的激励源特征对短时倒谱特征具有很好的互补性,研究了基于短时倒谱特征和激励源特征融合的短语音说话人识别,并设计了基于可信度的短时倒谱特征和激励源特征判决融合方法。通过对不同特征间相关性的度量,研究了说话人识别中LP残差激励源特征对短时倒谱特征的互补性,为说话人识别中激励源特征和短时倒谱特征的结果融合提供了理论依据。针对说话人辨认和说话人确认,分别采用了基于单次识别中各特征识别结果可靠性的动态融合方法和基于不同特征在说话人识别中固有的区分性能的静态融合方法。相对于单一的短时倒谱特征,两种特征的识别结果融合之后,当训练语音的长度为10秒,测试语音长度分别为10秒、8秒、5秒、3秒和2秒时,系统识别性能的相对改善率分别为13.44%、11.11%、10.22%、10.12%和8.95%(说话人辨认)和5.51%、5.02%、10.72%、8.43%和2.55%(说话人确认)。