论文部分内容阅读
随着大数据时代的到来,互联网上的信息量呈爆炸式增长。传统的基于文本标注的检索已经不能满足人们对多媒体检索的需求。基于多媒体文件自身内容信息的检索已经成为今年来的研究热点。在基于内容的多媒体检索中,样例检索(Query-By-Example)具有使用方便、不需要标注信息、对用户要求低等特点。以音频为例,人们可以通过提交一小段未知录音来搜索数据库从而获取该段录音相关信息。音频指纹检索是样例检索的一种重要形式,它具有体积小、检索速度快等优点。本文针对音频指纹算法存在的一些关键问题进行研究,主要研究工作如下:首先,针对短查询指纹搜索检出率低的问题,采用基于听觉机理的音频指纹生成方法。在计算音频指纹时的峰值点选取过程中,充分利用人耳听觉的掩蔽效应,以峰值点能量为基准,生成掩蔽阈值曲线,并将其用于后续峰值点的选取,在选出新的峰值点的同时,采用叠加的方式更新该阈值曲线,从而将不易被人耳感知的峰值点滤除。本文采用掩蔽效应构建动态阈值曲线,从而选取出更具鲁棒性的频谱峰值点,以这些峰值点为基础生成的音频指纹将具有更好的鲁棒性,更有利于提高音频指纹检索的检出率。实验结果表明,该方法能明显提高检出率。其次,本文针对音频指纹算法参数的数量多、数值范围大,以及难以通过人工选择的方式寻找最优参数组合的问题,鉴于群智能方法能够在高维空间中快速搜索到最优解的特点,使用粒子群算法(Particle Swarm Optimization,PSO)、遗传算法(Genetic Algorithm,GA)进行参数寻优,并在适应度函数中,综合考虑算法的检出率、正确率和速度等关键性能指标。实验表明,这两种方法均能获得较好的效果,同时粒子群算法的效果略好于遗传算法。最后,论文以C++为开发工具,实现了音频指纹检索系统。在该系统中,音频指纹检索模块以动态链接库的形式实现,提供接口函数,从而实现基于指纹的快速、鲁棒检索。