压缩域音频指纹及其鲁棒性研究

来源 :广东工业大学 | 被引量 : 3次 | 上传用户:fems0601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术、数据压缩技术以及互联网技术的日益发展,海量的多媒体信息出现在我们的生活当中。依靠人们掌握的关键信息(如音频文件的标题、作者、出版时间、关键词等)来从众多的音频文件中快速而准确的找到目标音频(即所需要的音频文件)正变的越来越困难。基于内容的音频指纹索引方式无需关键信息,完全依赖于音频内容本身,并且索引出的候选结果少,它正逐渐在音频检索、音频识别、音频内容完整性校验等领域发挥着重要作用。目前的相关研究主要集中在非压缩域音频指纹索引理论和技术,鲜有关于压缩域音频指纹的研究文献,且甚少涉及指纹算法的鲁棒性测试和改进。本文首先介绍了音频指纹索引技术的研究背景和意义,从音频指纹的多样性和鲁棒性、压缩域音频指纹以及音频指纹快速索引算法等多个角度综述了国内外的研究现状;接着对压缩域音频指纹涉及的相关原理知识进行了归纳。从实际应用出发,在分析和研究了压缩域音频特征的基础上,提出了压缩域音频指纹算法,该算法根据解压过程中的MDCT频谱能量直接计算压缩域音频的指纹,无需对压缩域音频进行完全解码。考虑到目前的手持音频设备采集到的一般是非压缩音频,本文还设计了相应的非压缩域音频指纹算法,此算法参考标准的音频压缩流程,从PCM音频信号计算MDCT频谱,然后再计算指纹。这两种算法所生成的指纹可以在同一个音频指纹数据库中进行有效检索。对指纹算法的相似性、区分性、误码率和鲁棒性等技术特征进行了测试和分析,实验表明文中所述算法具有良好的性能,其正确识别率符合实际应用的要求。论文还从索引匹配的角度介绍了一种基于Hash模型的指纹快速索引算法。在对鲁棒性测试结果进行分析的基础上,本文刘线性速度变化这样一种常见的时域失真现象进行了鲁棒性改进研究。分别结合自相关函数的移位不变性和Fourier-Mellin变换的尺度不变性对本文算法的鲁棒性进行了优化设计。测试结果表明,基于相关函数的优化算法将抗线性速度变化的能力从±5%提高到±7%,而基于Fourier-Mellin变换的优化方案将抗线性速度变化的能力提高到±10%,并且两种优化算法均不影响算法对其它常见的时频域失真的鲁棒性。最后根据本文的指纹算法设计了一个简单的音频指纹识别系统,并对系统的性能和技术指标进行了测试和总结。
其他文献
选取2010年2月-2012年1月我院收治的82例慢性喘息型支气管炎患者的临床资料进行研究分析,并随机将患者分为治疗组和对照组各41例。对照组患者采用孟鲁司特进行治疗,治疗组患
背景男性不育症发病率近年呈上升的趋势。男性不育症受到越来越多的关注,其原因一方面是男性不育患者数量近年来有明显上升趋势;另一方便面是对男性不育症的病因研究尚不明朗:
本文在研究土壤侵蚀的过程中,分别讨论了影响土壤侵蚀的各因子以及相互之间的关系。土壤侵蚀过程受多种不同因子的相互作用并构成一个综合的系统,系统内各因素相互作用、制约
本文运用篇章语言学理论分析中法语篇,研究影响语篇建构的主要因素,以期对语篇建构及语篇翻译提出建议。论文第一章为篇章语言学的理论分析,主要包括篇章语言学的发展历程,主要思