论文部分内容阅读
随着互联网和信息技术的飞速发展,音视频等多媒体的传播也越来越便捷,这极大的方便了人们的生活。但是其带来便捷的同时,海量音视频数据的安全性问题受到社会各界的关注,因此对音视频数据的研究具有重要的现实意义。暴力元素是音视频中的重要组成部分,如何对音视频中的暴力事件进行有效的检测是本文研究的主要内容。音频信号作为音视频中传达信息的重要载体,它是音视频中重要的组成部分,并且相比视频而言其数据量更小。因此本文以音频信号为研究对象,用时频特征来表征音频信号并作为分类器输入特征来实现暴力事件的自动检测。由于声音事件通常发生在非结构化的环境中,音频信号的时频表达很容易发生变化,这导致真实环境下音频事件检测系统的性能不高。针对以上问题,本文的研究工作主要集中在构建有效的音频事件检测算法来提高音频事件检测系统的性能,具体的工作如下:(1)为了缓解背景噪声对目标音频事件的干扰以及目标音频事件在音频流中存在比例不高等问题,提出了一种多层次注意力机制一维DenseNet(Dense Convolutional Network)音频事件检测模型。首先,使用一维DenseNet模型进行帧级检测能有效地检测音频事件发生的开始和结束时间;其次,在一维DenseNet模型中引入多层次注意力机制,这使得不同模块的感知特性随着网络层数的加深而自适应地变化;最后,在公开数据集上进行相关对比实验,验证了该模型的有效性。(2)为了缓解卷积神经网络模型不能很好地处理音频信号等时序信息的问题,在现有的基于卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)的音频事件检测算法的基础上,提出了一种改进的CRNN模型。首先,将DenseNet模型与循环神经网络模型结合构建了稠密卷积循环神经网络模型来克服卷积神经网络模型不能处理时序数据的不足。其次,在稠密卷积循环神经网络模型中引入了一种优化的多层次注意力机制来进一步缓解背景噪声对目标事件的干扰。最后,在公开数据集上对上述模型进行了分步实验并与其他文献的算法做了对比分析,实验结果表明该算法有效地提高了音频事件检测系统的性能。(3)本文将所研究的算法应用于IPTV流媒体系统的暴力音频识别模块中,根据需求设计了一套合理的音视频暴力事件检测流程,进行了功能展示,并对检测结果进行了分析。