基于LSTM网络的声学场景在线检测系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:li2008shuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,多媒体技术的提升以及移动设备的大量普及,出现了大量的以线上直播为主要业务的网络平台。以短视频分享为主要业务的应用也日渐流行,目标用户也越来越广泛。平台和应用上承载的数据量之大、种类之庞杂,给用户搜索想要的数据资源带来了极大不便,同时也给网络数据的监管造成了麻烦。本文针对上述多媒体应用中的在线音频数据,搭建一套可以识别音频声学场景类别的在线检测系统。论文的主要内容有:(1)基于混合高斯模型(Gaussian Mixed Model,GMM)的声学场景识别方法。本文简要介绍了DCASE2016 Task1声学场景识别比赛,以及基于GMM的声学场景识别基线系统。该基线系统所使用的特征是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。对每个场景类型训练一个GMM模型。分类时,在各GMM模型的输出中选出最大值,其对应的类作为数据的预测类别。(2)基于长短时记忆网络(Long Short Term Memory Network,LSTM)的声学场景识别方法。其主要目的是利用基于LSTM网络的声学场景识别模型,对具有鲜明声学场景特性的音频流进行区分。文中在介绍LSTM网络结构特点的基础上,阐述了与所研究模型相关的音频预处理、特征提取、分段处理、LSTM识别模型的训练和测试等过程,最后给出了该识别模型的测试结果。该方法使用DCASE2016 Task1声学场景识别比赛的数据集,最高达到了81.8%的准确率。(3)在线检测系统设计与实现。在线音频数据中的声学场景类别是开集,离线的训练数据无法包含在线数据中的所有类别。因此本文提出了一种能够动态区分在线数据中是否含有新类别数据的系统框架,并且能够及时地将新类别纳入到在线检测系统进行分析。为此设计了GMM区分模型以及基于LSTM的声学场景识别模型。最后,系统的测试结果表明基于LSTM的识别模型可以进行声学场景的在线分类,新的声学场景类别可以被系统接受并识别。
其他文献
科技成果转化实质上就是利益关系的博弈过程,利益关系均衡是科技成果转化必须坚持的基本原则。本文在回顾科技成果转化与利益均衡理论的基础上,以科技成果转化各方的博弈能力
平安金融中心工程具有建筑高、建筑面积大、质量安全目标高的项目特征。工程施工组织具有占地面积小、施工工期短、施工专业多、垂直运输压力大、交叉作业多等特点。项目经理
混合所有制职业院校的治理属于单边治理,这是由混合所有制职业院校的权力来源、资本构成和运行方式决定的,这种单边治理已经陷入困境。基于利益相关者向混合所有制职业院校投
杨柳科(Salicacea)杨属(Populus)为落叶乔木,广泛分布于欧、亚、北美,资源丰富。研究发现,杨树中含有药用成分黄酮类化合物,它是杨属植物的主要活性成分之一。加杨是我国广泛
铝灰是熔炼铝过程中产生的废弃物,通过XRD、X荧光射线、化学分析和测氮分析等检测方法,确定铝灰主要组成为(wt%):Al 26.5,AlN 16.69,Al2O3 6.23,NaCl 4.32,MgAl2O4 22.17,SiO2
混凝土材料在基础设施建设中占了绝大比例,随着基础设施的老龄化,对其现状的评估日益受到重视。在役结构中混凝土多处在损伤的早期积累阶段,对其损伤进行识别和累计损伤进行
汉语成语是汉民族特有的一种语言形式,其意思精辟,往往隐藏于表层含义之下,而不是组成部分意义的直接相加。本文以“东”参构的成语为主要研究对象,从语义、语法、文化三个方
本文将对环境监测水质采样质量管理进行诠释和分析,对水质采样工作中所存在的不足进行探讨分析,并就其所存在的不足之处提出相应的解决措施,因而优化环境监测水质采样质量管
现代汉语副词“还”的语用频率很高,其语法意义非常丰富,也非常复杂。是对外汉语教学中的一个重难点。汉语副词“还”在印尼语中的对应词是"masih",它们之间有同有异。而印尼
地球表面的地形在不断地發生变化,某些地方發生岩石的冲刷,另外一些地方則發生沉积物的堆积。在沉積岩之中,依据它們生成的条件,可以分成海相沉積岩和分布較小的陸相沉積岩,