论文部分内容阅读
网络环境下说话人识别是指在互联网音频信息中查找出目标说话人的一种技术,在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的,开展相关的研究工作。进行网络环境下说话人识别,首先要将互联网中各种编码格式的音视频实时解码成统一规格的非压缩音频。本文在实验室现有的实时音频解码系统基础上,分析了不同协处理器(Coprocessor)实现实时音频解码的优劣,并将实际网络中占有量最大的MP3(MPEG Audio Layer 3)解码过程移植到众核芯片TILE64上,以解决实时音频解码系统占有CPU ( Central Processing Unit)资源较高、解码速度较低的问题。含有TILE64实时解码MP3功能的新实时音频解码系统平均解码速度达到200Mbps,比原来提高了1倍,而功耗并未增加。其次,利用新实时音频解码系统采集实际网络中的大批音视频数据,并实时地解码成8KHz采样率、16bits采样位数、单声道且时长为10秒的标准处理单元,然后通过VAD(Voice Activity Detection)和基于高斯核函数的SVM(Support Vector Machine)方法进行语音/非语音分类,过滤出约占总量七分之一的语音标准处理单元集合,并以此语音标准处理单元集合为基础,整理出用于说话人识别测试的真实网络语料库。接下来,搭建基于GMM-UBM(Gaussian Mixture Model-Universal Background Model)的文本无关的通用说话人辨认系统,通过实验表明,通用说话人识别系统能够在实验环境下表现良好,但在真实网络语料库中,由于非目标说话人的海量语音数据影响,虚警数远超过正确识别数,无法满足实际工程需求。最后,针对上述通用说话人识别系统不能胜任网络环境下工程需求的问题,设计并实现了两种说话人识别确认方法高阶语义窗和音素级对比方法,通过实验表明,这两种方法在提高通用说话人识别系统的鲁棒性上都表现良好。其中,两种方法的融合改进系统鲁棒性更加明显,虚警率在0.1‰时,召回率达到50%,与通用说话人识别系统相比提高了6.25倍,基本达到实际工程的需求。