论文部分内容阅读
在网络多媒体信息海量出现的今天,多媒体数据库中出现大量重复性数据,这不仅给多媒体数据库造成巨大的存储空间浪费,也使信息检索和查询变得困难。因此对多媒体数据重复检测技术的研究具有十分重要的意义,本文针对如何对大规模数据库进行多媒体数据重复检测展开研究,具体内容如下:(1)在检索方法方面,Philips算法虽然在多数信号畸变影响下具有良好的鲁棒性,但在实际高噪音环境下效果却不理想。MBM(Bit Mask)算法对Philips算法进行了改进,提高了其在实际高噪环境下的鲁棒性。然而MBM算法检索效率低下,而且鲁棒性和检索效率会随着数据库规模的扩大变的越来越差。本文结合两者的优缺点,提出了基于谐波滤波的音频指纹算法。实验结果表明该方法提取的音频指纹与Philips算法相比具有更好的抗噪鲁棒性,与MBM算法相比具有更高的检索效率。另外,通过采用多级检索方法进一步提高了检索的查准率。(2)在重复检测方面,针对大规模多媒体数据库的音频指纹数据量大,进行重复检测时面临内存不足、检测效率低下等问题,本文提出了分段内存加载方法。并基于该方法设计了重复检测算法,以及分剧集的多媒体文件重复检测方法。实验结果表明,本文提出的重复检测方法是有效的。(3)基于对音频指纹和重复检测方法的研究,本文设计并实现了基于音频指纹的多媒体数据库重复检测系统。该系统主要完成在多媒体文件加入数据库之前,进行多媒体文件的重复检测工作。针对网络平台下的大规模数据库重复检测问题,系统采用分布式结构,具有良好的可扩展性。实验证明,该系统能较好的完成重复检测功能。