论文部分内容阅读
说话人识别目的在于使计算机具有通过语音辨别说话人身份的能力。作为生物特征识别关键技术之一,说话人识别技术在身份认证、人机交互、公共安全、信息安全、金融服务等领域具有广阔的应用前景。尤其是近年来,随着计算机网络的迅猛发展,互联网上大量出现的多媒体文件,其中蕴含着丰富的语音信息,这为说话人识别技术提供了新的应用空间。在常规应用环境下,目前的说话人识别系统已经取得了理想的识别性能。但在网络环境下,其性能急剧下降。根本原因在于网络说话人识别的复杂性,具体表现在:(1)网络语音数据在内容上常常含有多个说话人的语音,而且语音和非语音混合在一起;在编码上多种编码方式并存且以压缩数据的形式封装在多媒体文件中。(2)集外数据量异常庞大,造成大量的误检。(3)数据可能经过多次转码压缩,同一音频数据可能存在多种音频编码的版本,造成训练与测试数据的编码失配,引起大量的漏检。(4)难以确保目标说话人有充足的训练语料,模型训练不充分,从而严重影响识别性能。本文主要研究网络环境下说话人识别的关键技术,为说话人识别技术在网络上的应用提供支撑。内容集中在网络说话人语音数据归一化方法、说话人聚类中的模型测度、极低错误接受率的说话人确认、说话人模型编码补偿及稀疏训练数据下的说话人建模等方面。主要研究内容包括:1.提出网络说话人语音数据归一化方法。将网络多媒体数据流转换为仅含单一说话人的特征序列,是实现网络环境下说话人识别的基本前提。本文提出了一种网络说话人语音数据归一化方法,用于实现了这一目的。该模型的要点包括:(1)将网络多媒体下载数据包实时地解码为统一、非压缩格式音频数据;(2)对各声道数据进行鲁棒音频特征提取;(3)分段计算各声道间的相似度,去除多个声道的冗余信息;(4)将连续的音频流分割为一系列仅含单一音频内容的音频片段;(5)从音频分割结果中去除非语音片段,仅保留单一说话人语音片段。实验表明,该归一化方法能实时、高效地将网络多媒体下载数据流转换为单一说话人的特征序列。2.提出用于说话人聚类的广义K-L测度。测试语音片段长度的增加可以提高系统性能。说话人识别系统需要用说话人聚类技术增加测试语音长度。聚类测度在提高聚类性能方面起着重要作用。然而对称K-L散度和广义似然比等已有测度,在语音片段长度差异较大时,性能会有所下降。针对这一问题,本文提出了用于说话人聚类的广义K-L测度。当音频片段模型为单高斯分布时,本文证明了广义K-L测度与已有聚类测度之间的关系;当音频片段模型为多高斯混合分布时,广义K-L测度没有闭式解,本文给出了一种计算量较小的上界计算方法。实验表明,当聚类片段长度差异较大时,广义K-L测度具有更好的性能。3.提出极低错误接受率的说话人确认方法。数量巨大的集外数据将导致系统错误接受情况频繁发生。本文提出了一种极低错误接受率的说话人确认方法。该方法在经典的GMM-UBM说话人识别框架中添加一个确认判决环节,对识别结果进一步筛选。本文采用了三种筛选策略:加大分析粒度、提高模型的区分能力以及采用有区分性的新特征。实验表明,在大量网络多媒体测试数据情况下,确认判决环节能有效减少错误接受情况。4.提出说话人模型编码补偿方法。多种编码格式的存在,将直接导致说话人识别系统的测试与训练环境不匹配,进而造成系统漏检情况频繁发生。本文提出了一种模型编码补偿方法,通过学习获得测试数据与训练数据特征分布之间的差异,并以此对模型进行编码补偿。实验表明,该方法能有效降低编码失配造成的漏检情况。5.提出训练数据稀疏条件下的说话人建模方法。网络环境下训练数据时长较短,导致模型参数的训练不充分,进而引起系统性能下降。本文提出了一种基于移动因子的高斯混合模型补偿方法。该方法首先将模型自适应过程中的变化仿射到低维移动空间中,然后从受训练语音长度影响较小的模型分量中,学习代表模型整体变换规律的移动因子,最后依据该因子对受训练语音长度影响较大的分量进行参数补偿,以提升模型对说话人发音特性的刻画能力。本文对移动因子中的相关参数给出了相应的训练方法,同时研究了移动因子的特性。实验表明,在训练数据稀疏情况下,该方法能明显降低系统的等错误率。本文对网络环境下说话人识别的若干关键问题进行了深入研究,并给出了有效的解决方法,对说话人识别技术在互联网这一复杂环境中的应用起到推动作用。