论文部分内容阅读
视频、图像和音频等多媒体数据已经成为信息处理领域的主要信息媒体,其中音频占有很重要的地位。传统的基于文本的检索存在主观性和不完整性等缺点,为此,基于内容的音频检索成为未来必然的研究和应用方向。音频的特征提取与分类识别是音频检索的基础。小波变换是近年来兴起的一种新型数学工具,其对非平稳信号的良好分析能力使其越来越多地受到人们的关注。如何利用小波分析技术有效地提取音频信号的时频域特征是本文的主要研究工作。
本文在时频域特征提取方面重点研究了局域判别基(LDB)算法的基本原理,在该算法的几个主要环节上作了部分补充和改进,主要的工作集中在以下几个方面:(1)小波包变换后,在构建LDB小波包树前,没有沿用欧氏距离、相对熵和对称相对熵作为区分度量值,而是引入了一个新的、更具物理意义的区分度量值,即节点归一化能量差;(2)在原有小波包树裁剪规则的基础上,补充了两条新的规则,新规则的引入有利于剔除冗余的子带,对LDB小波包树起到了精简的作用;(3)特征提取过程不再直接选用节点区分度量值,而是采用了节点分帧统计特征,实验中发现后者的识别效果要明显高于前者;(4)由于小波包分解层数为5层,尽管采用了局域判别基算法对小波包树进行了裁剪,但保留的正交子空间的数量还是相对较多,这也意味着特征矢量的维数会比较高。因此,在将特征矢量送入SVM分类器之前,采用了Fisher准则对高维特征矢量降维,降低分类的复杂度。实验中采用小波包变换作时频域分析、采用局域判别基算法提取音频特征、采用SVM作分类器,对纯语音、带背景音乐的语音、音乐和环境噪音四类音频进行分类识别,取得了较高的识别率。
本文最后给出了局域判别基算法各主要环节的实验数据,同时给出了不同特征下的识别精度,并对实验结果进行了分析和比较。