论文部分内容阅读
音频场景识别通过分析音频场景中包含的声学事件,实现对音频的高层抽象概念和语义内容上的感知。在实际应用中,如果音频数据中存在大量场景无关的声音干扰,将会导致音频场景识别性能急剧下降。为解决此问题,本文使用深度神经网络(Deep Neural Network,DNN)提取音频场景的高层抽象特征,并引入视频信息作为辅助,进一步对音视频信息的融合机制进行探索,提出基于模型融合的多模态信息融合方法。实验结果表明,基于DNN和模型融合的方法在复杂音频场景识别问题上取得了较大的性能提升。