论文部分内容阅读
随着互联网的发展,多媒体技术的提升以及移动设备的大量普及,出现了大量的以线上直播为主要业务的网络平台。以短视频分享为主要业务的应用也日渐流行,目标用户也越来越广泛。平台和应用上承载的数据量之大、种类之庞杂,给用户搜索想要的数据资源带来了极大不便,同时也给网络数据的监管造成了麻烦。本文针对上述多媒体应用中的在线音频数据,搭建一套可以识别音频声学场景类别的在线检测系统。论文的主要内容有:(1)基于混合高斯模型(Gaussian Mixed Model,GMM)的声学场景识别方法。本文简要介绍了DCASE2016 Task1声学场景识别比赛,以及基于GMM的声学场景识别基线系统。该基线系统所使用的特征是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。对每个场景类型训练一个GMM模型。分类时,在各GMM模型的输出中选出最大值,其对应的类作为数据的预测类别。(2)基于长短时记忆网络(Long Short Term Memory Network,LSTM)的声学场景识别方法。其主要目的是利用基于LSTM网络的声学场景识别模型,对具有鲜明声学场景特性的音频流进行区分。文中在介绍LSTM网络结构特点的基础上,阐述了与所研究模型相关的音频预处理、特征提取、分段处理、LSTM识别模型的训练和测试等过程,最后给出了该识别模型的测试结果。该方法使用DCASE2016 Task1声学场景识别比赛的数据集,最高达到了81.8%的准确率。(3)在线检测系统设计与实现。在线音频数据中的声学场景类别是开集,离线的训练数据无法包含在线数据中的所有类别。因此本文提出了一种能够动态区分在线数据中是否含有新类别数据的系统框架,并且能够及时地将新类别纳入到在线检测系统进行分析。为此设计了GMM区分模型以及基于LSTM的声学场景识别模型。最后,系统的测试结果表明基于LSTM的识别模型可以进行声学场景的在线分类,新的声学场景类别可以被系统接受并识别。