论文部分内容阅读
步入21世纪以来,通信技术、互联网技术和多媒体技术得到了迅猛的发展,信息数据中的多媒体数据量已经大大超过了文本数据量,并且仍然保持着高速增长。音频、视频和图像是多媒体信息的主要部分,为了使音频信息得到充分的利用,人们开始关注音频信息检索技术。相对于图像和视频,音频数据具有非结构化的特点,这一特点使得音频信息检索比图像和视频信息检索更加困难。音频信息从存在形式上来讲有两种,一种是存储在某种介质之中的,比如光盘或者磁带,另一种是实时播放的,比如广播。这造成了音频检索的离线和在线之分。另外音频检索还可以分为表示级和语义级。因此检索不同的音频形态需要不同的检索方法。音频信息检索技术发展的时间并不是很长,目前还存在许多问题需要解决。从整体上来说,实用的检索系统还非常的少,音频检索技术研究还是处于刚刚起步阶段。本文主要研究表示级音频检索,针对音频样例检索方面,开展了以下研究工作:1、对于音频样例检索的噪声敏感问题,提出了基于阈值自适应的直方图音频检索方法。在音频特征矢量量化中,根据音频特征的特性优化了矢量量化码书产生方法。分析了动态直方图在噪声情况下的缺陷,结合特征编码匹配进行检索阈值的自适应控制。实验结果表明,该方法具有较好的噪声鲁棒性。2、对于音频检索的残缺鲁棒性问题,提出了划分子模板的检索方法。该方法将参考音频分为若干子模板,并使用子模板登记到滑动窗内来控制其是否进行检索。结合实验分析了目标音频各部位发生残缺对算法的影响,最后对比整体检索方法证明了该方法的残缺鲁棒性。