视频搜索及语义提取

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:tlhcm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络和多媒体技术的发展,视频信息急剧膨胀。如何对海量的视频信息进行有效地检索和查询,已经成为目前迫切需要解决的问题。因此,基于内容的视频检索(Content-Based Video Retrieval, CBVR)技术受到广泛关注。本文分别从低层视觉特征提取、高层语义特征提取以及语义视频搜索三个层次就基于内容的视频检索进行研究,提出了一些新的算法和框架,主要内容如下:在低层视觉特征的选择和提取方面,全面分析和比较了基于关键点、纹理、边缘和颜色信息的四大类视觉特征在概念检测中的性能。首先采用基于Bag-of-Visual-Words的关键点投影算法,有效地量化高维关键点特征;其次改进了采用不同检测子的SIFT、SURF特征进行特征级融合的方法,最后在TRECVID数据集上,测试了不同视觉特征的检测性能。实验结果显示,经过融合后的SIFT、SURF特征较融合前原始特征的性能有显著提高。在高层语义特征的提取方面,提出了一种视频语义概念的提取框架。使用颜色、Gabor小波、边缘直方图和SIFT四种视觉特征,为每种视觉特征训练支持向量机作为分类器,经过分类器的决策级融合后,得到概念检测结果。随后提出了多种决策级融合算法,并在自测实验中进行测试。实验结果表明,混合各概念最佳融合算法构成的混合融合算法,对性能提高最大。TRECVID 2008高层特征提取的评测结果显示,本系统的整体性能高于所有参赛队伍的平均值。在视频搜索方面,提出了基于语义的视频搜索框架。分析了基于示例样本的搜索方式和基于语义概念的搜索方式,并分别采用基于语义相似性的方法和基于样本相关性的方法建立概念与语义查询的映射关系,实现了语义信息的自动提取,完成用户查询请求。在TRECVID 2009自动视频搜索评测中排名第一,充分验证了本文算法的有效性。
其他文献
高分辨成像一直是雷达成像不断追寻的目标。为了达到这一目的,最常见的做法是提高发射信号的带宽,但是超宽带信号的产生和处理会带来很大的硬件压力。本文重点介绍了一种通过
口语评测是一种学生按照某种要求发音,计算机根据学生发音的标准程度来自动评分的技术。传统的文本相关评测任务要求学生严格依照指定的文本发音,对应朗读或者严格背诵的情境
语种识别(Language Identification, LID)是对一段语音自动识别出其所属语言的种类的过程。由此可知,语种识别是一种针对语音段进行的模式识别,因此语种识别中的一个关键问题
在互联网迅速发展的今天,收听广播仍然是人们日常生活中的一项重要组成部分,因此对广播天线的研究,提高远场辐射效率,减小近场辐射功率,以保障广播发射台工作人员的身心健康,
纠错编码是无线通信系统中非常重要的一个子系统,该模块的性能会极大影响到整个通信系统的性能。作为全球微波接入互通(WiMAX, World wide Interoperability for Microwave A
卡尔曼滤波经过30多年的研究、应用与发展,已经成为最优估计理论中一种最重要的方法广泛应用于各种领域,并展现出非常广阔而诱人应用前景。本文首先简要回顾了卡尔曼滤波研究的
近年来语音合成技术发展迅速,并在越来越多的实际场景中得到了应用。基于大语料库的单元挑选与波形拼接方法和基于统计建模的参数合成方法是目前最为主流的两种语音合成方法
随着通信技术的飞速发展,不断增长的业务需求与有限资源之间的矛盾日益突出,如何匹配资源需求与资源分配成为研究的热点。未来的无线通信网络将会变成密集的、不规则的、自组
基于图像的信息隐藏技术是将秘密信息嵌入到普通的数字图像之中,实现隐蔽通信的目的。它在提供一种安全隐蔽通信方式的同时,也可能被不法分子所利用,影响到国家安全和社会稳
随着无线网络技术的迅速发展,基于无线网络的各种应用也层出不穷。利用IP网络传输话音信息的实时语音业务,由于其相对于传统电话业务强大的优势,得到了长足的发展。在无线网