论文部分内容阅读
近年来,深度神经网络在音频识别中的应用使自动语音识别(Automatic Speech Recognition,ASR)系统取得了令人瞩目的进步。目前的ASR系统已经具有高准确性和便利性,各种智能终端配备的语音识别接口使其开始为人们提供广泛的服务。然而,近年来大量实验已经证明,微小的对抗性扰动可以欺骗深度神经网络,使其错误地输出攻击者所指定的目标。目前对抗ASR系统的工作主要集中于白盒攻击,而在黑盒环境下针对语音识别系统生成对抗样本的方法很少。在黑盒环境中模型架构和参数是未知的,这使得生成对抗样本相对困难,但黑盒攻击方法的优势在于其不依赖于模型结构,因此这类方法对语音识别系统具有更大威胁。本文将遗传算法和梯度估计相结合,提出了一种有效的黑盒攻击方法。该方法通过对每个输入音频样本进行迭代训练,实现了86.5%的定向攻击成功率,同时保持了94.6%的音频文件相似度。在此基础上,本文继续探究了对输入普适的语音对抗样本生成方法。最新研究证实了针对用于图像识别的神经网络模型存在输入普适的对抗性样本,即对任意的原始图像添加相同的对抗性扰动可以高概率地欺骗神经网络分类器,使其分类出错。本文在此基础上提出了一种针对语音识别系统的普适性对抗扰动生成方法,证实了此种普适性语音对抗样本的存在。该方法构造了一种有效的目标函数,利用每个输入样本计算目标函数梯度并更新对抗样本,从而在大量的输入样本上生成普适性对抗扰动。相比于Seyed-Mohsen等人在图像识别领域提出的叠加法计算普适性对抗样本,能够快速利用大量训练样本得出噪音分贝更低的普适性对抗样本。因此,当训练样本的数量充足时,本文提出的算法会产生更有效的攻击。本文针对百度语音识别模型(Deepspeech)进行了实验,以1000个输入音频作为训练样本,在500个测试样本上实现了89.25%的定向攻击成功率,且对抗性噪音分贝仅为37.8d B。普适性扰动的存在揭示了分类器高维决策边界之间的重要几何关联,从而导致输入空间中存在单个方向的潜在安全漏洞,攻击者可以利用这些漏洞来破坏大多数神经网络系统。