基于听觉机理的音频指纹算法研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:aiyis88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,互联网上的信息量呈爆炸式增长。传统的基于文本标注的检索已经不能满足人们对多媒体检索的需求。基于多媒体文件自身内容信息的检索已经成为今年来的研究热点。在基于内容的多媒体检索中,样例检索(Query-By-Example)具有使用方便、不需要标注信息、对用户要求低等特点。以音频为例,人们可以通过提交一小段未知录音来搜索数据库从而获取该段录音相关信息。音频指纹检索是样例检索的一种重要形式,它具有体积小、检索速度快等优点。本文针对音频指纹算法存在的一些关键问题进行研究,主要研究工作如下:首先,针对短查询指纹搜索检出率低的问题,采用基于听觉机理的音频指纹生成方法。在计算音频指纹时的峰值点选取过程中,充分利用人耳听觉的掩蔽效应,以峰值点能量为基准,生成掩蔽阈值曲线,并将其用于后续峰值点的选取,在选出新的峰值点的同时,采用叠加的方式更新该阈值曲线,从而将不易被人耳感知的峰值点滤除。本文采用掩蔽效应构建动态阈值曲线,从而选取出更具鲁棒性的频谱峰值点,以这些峰值点为基础生成的音频指纹将具有更好的鲁棒性,更有利于提高音频指纹检索的检出率。实验结果表明,该方法能明显提高检出率。其次,本文针对音频指纹算法参数的数量多、数值范围大,以及难以通过人工选择的方式寻找最优参数组合的问题,鉴于群智能方法能够在高维空间中快速搜索到最优解的特点,使用粒子群算法(Particle Swarm Optimization,PSO)、遗传算法(Genetic Algorithm,GA)进行参数寻优,并在适应度函数中,综合考虑算法的检出率、正确率和速度等关键性能指标。实验表明,这两种方法均能获得较好的效果,同时粒子群算法的效果略好于遗传算法。最后,论文以C++为开发工具,实现了音频指纹检索系统。在该系统中,音频指纹检索模块以动态链接库的形式实现,提供接口函数,从而实现基于指纹的快速、鲁棒检索。
其他文献
随着多媒体技术和计算机网络的迅速发展,越来越多的数字信息产品通过网络广泛传播。在给人们带来便利的同时,由此而引发的非法拷贝和恶意篡改等侵权行为也引起了人们的关注。
形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数据结构——概念格通过Hasse图来表现出概念
当今社会,随着信息化与网络化的高度发展,信息安全显示出前所未有的重要性。因此,作为其中一个分支的身份识别技术也就具有相当高的研究价值与广泛的应用前景。其中,生物特征
非平衡混合数据分类处理在现实应用中非常普遍,该数据具有分布不均匀,属性多样等特性。传统的分类学习方法在处理该类型数据时有效性不高,而且在少数类样本足够重要时,甚至会
情感计算是国际上近几年刚刚兴起的、试图使计算机(机器)能够像人类那样具有理解和表达情感能力的一个多学科交叉的新研究领域,在智能人机交互中起着重要作用。由于人的情感
随着互联网的快速发展,网络上出现了越来越多的视频。在科学研究以及商业领域对视频信息的需求也愈发强烈,对于普通用户而言,能快速准确地从海量的视频库中找出感兴趣的视频并不
智能家居的目标是利用现代的通讯、网络、微电子、嵌入式等技术来提高人们的生活质量,使家庭变得更舒适、安全和有效。信息家电,是未来家用电器的主要发展方向。信息家电的发
本文针对目前基于内容的图像检索算法在算法效率和准确性方面存在的局限性,探讨了基于内容的图像检索技术中若干重要问题,提出了一种应用于基于内容的图像检索系统的多特征融
图像分类问题在计算机视觉领域占有重要地位,其实际应用也非常广泛。探究有效的图像分类算法是近些年的研究热点,主要包括图像特征编码与深度结构学习两个方向。针对这两个方
随着视频流媒体业务的迅速发展,用户对视频流媒体的播放质量要求越来越高,传统的C/S模式的流媒体系统,由于建设成本高,播放质量差等缺陷,已经很难适应目前的运营要求。近年来