论文部分内容阅读
近年来随着我国经济的快速发展,各个地区经济发展水平出现不均衡的情况,人口流动规模随之增加,给社会治安带来不稳定因素。然而,传统视频监控与目标检测方法所需的传输带宽达到数兆至数十兆,存储需求也非常高,因此开发一种有效且智能的安防辅助工具显得尤为重要。该工具同时可以适当降低安防监控对高清视频的依赖性。声纹识别是把音频信息输入到深度学习模型,从目标声音中提取出语音的纹理特征,可以成为一种有效的安防辅助工具。相较而言,其他类型的生物特征识别会容易受到各种干扰因素的影响,而声纹识别在进行有效的模型处理后,受影响较小,其识别过程中需要的设备成本也较低,是当前视频安防下的一种有效的辅助手段。本文所研究的基于深度学习的声纹辅助安防系统,主要包括:硬件采集单元和深度学习模型设计两个方面。该系统同时在已有课题的研究基础上改进了语音采集的硬件电路设计,增加了检测语音信号起止点的功能,结合有效的深度学习算法来优化声纹识别系统架构,提高声纹识别系统的简便性准确性。论文主要内容包括以下3个方面:1.介绍了国内外监控领域的行业背景及监控必要性,分析国内外声纹识别技术现状;并阐述了声纹识别相关的理论基础;分析了声纹识别系统需求,包括安防声纹技术的业务及功能需求,并在需求分析基础上进一步阐述了基于深度学习声纹识别辅助安防系统的可行性。2.对现有语音采集电路进行优化。优化后的语音采集硬件电路包括,使用麦克风音频信号放大模块对采集信号进行预处理;采用AD8656芯片设计的输入缓冲电路进行信号调理;针对调理后的语音信号,使用CS5341芯片进行模数转换;通过STM32的SPI接口接收ADC芯片传输的语音数据,并通过USART外设将数据发送至Wi-Fi模块,最后通过CC3100Wi-Fi模块尽可能快地将语音数据传输到云端。3.现有声纹识别系统存在抗干扰能力低、降噪能力较弱、MFCC(Mel频率倒谱系数)对声纹特征提取不稳定和不全面等问题。针对这些存在的问题,本文采取以下四种方式进行改进和优化:(1)使用“thin Res Net-34”(300万参数)作为模型的主干架构进行帧级特征提取,该模型大幅降低了参数数量,并缩短了训练时间,降低了能量消耗;(2)基于字典的Net VLAD来聚合不同时间的特征进行端到端的训练;(3)优化分类损失(softmax)函数,采用margin-softmax(AM-softmax);(4)系统的整体性能与语音预处理质量密切相关。因此采用端到端学习方式提取语音中的有效片段,并结合频谱门控降噪,提高语音预处理质量。通过测试实验分析,将本文设计的模型与其他系统(I-vectors与TDNN(x-vector))进行了对比测试。在纯净的语音环境中本文模型的EER(错误拒绝率)分别下降了1.37%、0.57%。而在噪音环境下,EER值分别下降了2.32%、1.02%。该实验结果说明,以thin Res Net-34为核心的声纹识别模型可以提高系统识别能力,并能够改善系统抗干扰能力。基于深度学习的声纹辅助安防系统,弥补了目前主流的视频监控无法长时间存储的不足,对于突发事件的音频数据能够通过联网发送至云服务器,带宽需求低且能量消耗较少,具有广泛的应用前景。