论文部分内容阅读
随着互联网的发展,越来越多的人能够方便快捷地接触到数字媒体,多媒体数据已经成为互联网信息高速公路上传输的主要内容。人们所面临的主要问题是如何在浩如烟海的多媒体数据中找到自己所需要的信息。基于内容的音视频检索是视频检索领域的新热点,它对音视频由底层到高层分步进行分析,从中对音视频的内容进行描述并对这个内容进行检索。作为基于内容的视频检索的一个特殊应用,基于内容的音视频版权检索正在引起人们越来越高的关注。同源音视频检索的主要应用领域有:音视频的版权保护以及对特定的音视频内容进行监控。本文分别从图像序列和语音信号两个方面着手,着眼于检索的效率和精度两个主要问题,设计并实现了同源的音频和视频检索两套系统,主要工作如下:在视频检索方面,我们突破了运算量的瓶颈,使用并行运算集群训练了一个5万维的视觉字典,大大提高了索引的精度。之后,为该大规模视觉字典设计了一种二级码书投影方法,进一步提高了索引的效率。最后,为了优化数据库中数据的访问速度,我们根据视觉字典的索引设计并实现了倒排索引的数据存储结构。在音频检索方面,基于不同的音频特征,提出了两种检索方法。首先提出了基于传统MFCC音频特征及希尔伯特曲线索引的检索框架。其后又提出了一种名为差分能量特征的音频指纹,并为之设计了哈希索引的音频检索系统。对两种框架进行了性能比较,最终选定后者实现音频检索。最后,本文对音视频检索两套系统进行融合,参加TRECVID2010同源视频和音频检索的评测。结果表明,本系统的整体性能高于所有参赛队的平均水平,这也验证了本系统的有效性。