声信号时频纹理表征与识别技术研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:jeanndy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声信号是重要的信息载体,通过声信号来感知环境信息是机器听觉领域中重要的研究内容之一。由于声信号识别技术具有设备体积小、硬件成本低、工作过程中不受地形、角度和光线等条件限制优点。因此,声信号识别技术在安全监管、医疗监护、生态系统调查以及反恐防暴等领域均具有广阔的发展前景。本文主要从声信号的时频纹理表征以及识别技术两方面展开研究,论文的主要内容如下:本文研究了音频识别技术原理以及国内外研究现状,并根据本文研究对象的特点确立了声信号识别技术的总体方案。首先,通过梅尔滤波器组以及Gammatone滤波器组等,仿人耳听觉特性的滤波器组获取声信号的时频纹理特征。针对单一时频纹理特征无法完全表征声信号在时频域上演变过程的问题,进一步提取了声信号时频纹理特征在时域以及频域上的一阶差分特征,获取了声信号能量在时频域上的变化信息。并将三种特征结合起来形成了一种声信号的多维时频纹理特征,这种多维特征能够更加有效地为识别模型提供不同类别声信号间时频特点的差异。其次,设计了用于提取声信号高层次特征的卷积神经网络模型,针对时频纹理特征维度信息不同的特点,采用分离卷积的方式提取时频纹理特征不同维度的高层次特征,构建了一种应用于本文研究对象的高层次特征提取模型,并设计了配套的分类模型。与此同时,采用DS证据理论融合了两种不同时频纹理特征的识别信息,进一步提升了声信号识别模型的性能。本文建立的声信号识别模型在ESC-10和ESC-50数据集中分别达到了97.2%与87.1%的识别率。最后,在本文提出的声信号识别模型基础上,建立了现实环境下的声信号实时识别系统。该系统主要包含硬件系统与软件系统两部分,其中软件系统可分为仿真模式、学习模式以及在线模式三个操作界面。根据现实环境中声信号识别的难点,引入主动标定技术,有效地避免了传统降噪算法所带来的一些问题。本文构建的声信号识别系统实现了在现实环境下对于脚步声、枪声、直升机声以及人声的实时识别。在信噪比为0dB以上时,识别率可达91.8%,平均识别时间为2.4秒。
其他文献
伴随着社会经济发展,生态环境、食品安全等涉及公共利益的领域正经受着行政机关违法作为和不作为以及民事主体侵权行为的双重考验,行政诉讼、民事诉讼和公益诉讼交叉的现象愈
<正>现在我们使用的义务教育课程标准实验教科书,低年段识字量较大,内容编排多,导致教学时间比较紧。有些教师往往迫于任务压力,在课堂教学中重视写和讲,而忽视了朗读。这是
繁峙县位于山西省东北部,行政区划属山西省忻州市,现辖3镇10乡。北靠恒山,与应县、浑源县相接,南依五台山,东邻灵丘县及河北省阜平县,西界代县。繁峙方言属于晋语五台片的一个方言小片。繁峙方言为本地通用方言,根据当地方言的内部方言差异可将其细分为三个方言片:繁城片、砂河片、大营片。本文选题为繁峙方言语音研究,以繁城镇话为代表,对繁峙方言的语音进行比较系统、全面的描写和分析,以期能反映繁峙方言的真实面貌
目的:观察高压氧(HBO)综合疗法对持续植物状态(PVS)患者的疗效.方法:将64例PVS患者随机分为高压氧(HBO)组和对照组各32例,前者接受常规药物治疗和高压氧治疗,后者仅接受常规
目的:探讨婚姻对社区精神疾病患者社会功能的影响。方法:在南宁兴宁城区各社区的精神疾病患者205例进行社会功能缺陷量表(SDSS)、日常生活能力量表(ADL)现场调研,并将调查数据进行