基于内容的同源音频和视频检索

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:letter0110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,越来越多的人能够方便快捷地接触到数字媒体,多媒体数据已经成为互联网信息高速公路上传输的主要内容。人们所面临的主要问题是如何在浩如烟海的多媒体数据中找到自己所需要的信息。基于内容的音视频检索是视频检索领域的新热点,它对音视频由底层到高层分步进行分析,从中对音视频的内容进行描述并对这个内容进行检索。作为基于内容的视频检索的一个特殊应用,基于内容的音视频版权检索正在引起人们越来越高的关注。同源音视频检索的主要应用领域有:音视频的版权保护以及对特定的音视频内容进行监控。本文分别从图像序列和语音信号两个方面着手,着眼于检索的效率和精度两个主要问题,设计并实现了同源的音频和视频检索两套系统,主要工作如下:在视频检索方面,我们突破了运算量的瓶颈,使用并行运算集群训练了一个5万维的视觉字典,大大提高了索引的精度。之后,为该大规模视觉字典设计了一种二级码书投影方法,进一步提高了索引的效率。最后,为了优化数据库中数据的访问速度,我们根据视觉字典的索引设计并实现了倒排索引的数据存储结构。在音频检索方面,基于不同的音频特征,提出了两种检索方法。首先提出了基于传统MFCC音频特征及希尔伯特曲线索引的检索框架。其后又提出了一种名为差分能量特征的音频指纹,并为之设计了哈希索引的音频检索系统。对两种框架进行了性能比较,最终选定后者实现音频检索。最后,本文对音视频检索两套系统进行融合,参加TRECVID2010同源视频和音频检索的评测。结果表明,本系统的整体性能高于所有参赛队的平均水平,这也验证了本系统的有效性。
其他文献
融合深度信息的多视点视频是目前最有效的三维视频表示形式,能够在一定范围内重建任意视角的三维视频图像,呈现出更具立体感和真实感的场景。随着视频应用领域的不断拓宽,具
随着现代通信技术、互联网以及计算机技术的飞速发展,带宽需求迅速增长,宽带用户数量急速飘升,以视频、音频、文字、动画等为特征的网络多媒体应用得以蓬勃发展,并逐步渗透到
摘要:在新课改的不断深入与推动下,初中物理教学中积极创设情景成为了关键所在,这不仅关系到提升学生学习兴趣,并且也帮助学生形成严谨的思考方式。从当前发展趋势分析,在初中物理教学情景创设中受到主客观因素的影响,产生诸多问题,故此本文针对性的展开研究与论述。  关键词:初中物理;情景创设;问题;对策  创设教学情景是新课改赋予的基本要求,初中物理知识涉及面广泛,存在抽象性,为提高学生的学习兴趣与有效性,
摘要:小学是学生形成学习思维,养成学习习惯的重要时期,因此在这个阶段应对学生进行充分的數学思想方法渗透,帮助他们逐渐形成良好的学习方法。本文笔者结合多年教学经验就小学数学思想方法的渗透进行分析,希望通过本文能给同行教育工作者带来一些帮助。  关键词:小学数学;教学;数学思想方法  小学数学教学具有一定的基础性和开拓性。一般来说,小学生都处在6-12岁的发展阶段,还没有形成较为完善的认知能力,没有数
期刊