基于改进的CRNN的暴力音频事件检测方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:wolfop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的飞速发展,音视频等多媒体的传播也越来越便捷,这极大的方便了人们的生活。但是其带来便捷的同时,海量音视频数据的安全性问题受到社会各界的关注,因此对音视频数据的研究具有重要的现实意义。暴力元素是音视频中的重要组成部分,如何对音视频中的暴力事件进行有效的检测是本文研究的主要内容。音频信号作为音视频中传达信息的重要载体,它是音视频中重要的组成部分,并且相比视频而言其数据量更小。因此本文以音频信号为研究对象,用时频特征来表征音频信号并作为分类器输入特征来实现暴力事件的自动检测。由于声音事件通常发生在非结构化的环境中,音频信号的时频表达很容易发生变化,这导致真实环境下音频事件检测系统的性能不高。针对以上问题,本文的研究工作主要集中在构建有效的音频事件检测算法来提高音频事件检测系统的性能,具体的工作如下:(1)为了缓解背景噪声对目标音频事件的干扰以及目标音频事件在音频流中存在比例不高等问题,提出了一种多层次注意力机制一维DenseNet(Dense Convolutional Network)音频事件检测模型。首先,使用一维DenseNet模型进行帧级检测能有效地检测音频事件发生的开始和结束时间;其次,在一维DenseNet模型中引入多层次注意力机制,这使得不同模块的感知特性随着网络层数的加深而自适应地变化;最后,在公开数据集上进行相关对比实验,验证了该模型的有效性。(2)为了缓解卷积神经网络模型不能很好地处理音频信号等时序信息的问题,在现有的基于卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)的音频事件检测算法的基础上,提出了一种改进的CRNN模型。首先,将DenseNet模型与循环神经网络模型结合构建了稠密卷积循环神经网络模型来克服卷积神经网络模型不能处理时序数据的不足。其次,在稠密卷积循环神经网络模型中引入了一种优化的多层次注意力机制来进一步缓解背景噪声对目标事件的干扰。最后,在公开数据集上对上述模型进行了分步实验并与其他文献的算法做了对比分析,实验结果表明该算法有效地提高了音频事件检测系统的性能。(3)本文将所研究的算法应用于IPTV流媒体系统的暴力音频识别模块中,根据需求设计了一套合理的音视频暴力事件检测流程,进行了功能展示,并对检测结果进行了分析。
其他文献
肿瘤相关纤维母细胞是肿瘤间质中的主要细胞成分,对恶性肿瘤的形成、分化、免疫逃逸和浸润转移有着重要的调节作用,本文就肿瘤相关纤维母细胞与肿瘤发生发展的研究进展作一综述
服务质量的好坏是酒店行业竞争中为数不多的差异因素,因此留住优秀员工从而提高服务水平形成竞争优势成为了酒店行业的重要课题。文章以对张家界星级酒店抽样进行实地走访及
一直以来,高校财务预算管理功能弱化是困扰高校财务工作者的一个难题。许多财务工作者都在为如何建立有效的高校财务预算管理体系而出谋划策。本文另辟蹊径,追本溯源,从分析
很难想像,地铁列车在隧道内行驶时带起的风,将满足北京地铁站内设施的用电需求。  北京五棵松地铁站,一股狂风从黑洞洞的隧道里冲出,迎面扑来,站台上候车者们的衣领剧烈地抖动起来。紧跟在风后的,是呼啸进站的列车。赶车的人们如往常一样脚步匆匆,没有谁在意那股一掠而过的阵风——事实上,那股风短短半分钟内便消失无踪。  在站台靠近隧道口的地方,几片像风车似地飞转的小叶片停了下来。9m/s!——叶片下的仪表显示
2002年春,家住江苏省如东县马塘镇马南村的黄永俊投资2万多元建起猪舍,购买400头仔猪,搞起了规模养猪。尽管当时行情低迷,400头商品猪上市后,黄永俊仍然净赚4万多元。现在,黄永俊的养猪规模扩大到700头。黄永俊养猪稳赚不亏,妙招有三:  一、 饲养良种  现在,大中城市尤其是上海市场,瘦肉率高的商品猪价俏销,每50千克总要高出三五十元。黄永俊说,只要饲喂科学,引进优质瘦肉型品种就能收到理想效益