论文部分内容阅读
随着计算机科学技术的飞速发展,通信网络,数据压缩和海量存储等新技术为人们接触多媒体信息提供了技术上的保证,多媒体信息以可读的形式存储于各种媒介之上,形成了庞大的信息海洋。各种数码产品层出不穷,也使得人们可以越来越多地获取个人化的图像和视频信息,并形成新的信息处理需求。对海量的信息,包括图形,图像,视频等,新技术产品提供了越来越多的数据源,但在建立信息结构,提取信息语义特征,进行标识建模和有效组织方面还有所欠缺,人们面对海量的多媒体信息是仅通过浏览来获取所关注的内容是不可行的,因此从海量信息中检索出有用的信息成了一个重要课题。本文的研究工作集中于图像检索和视频的标注。图像信息有多种获取来源,包括互联网上下载,自己用数码相机拍摄等。早期的图像检索技术,包括现在仍占据主流地位的图片检索引擎往往还是利用图片的标注信息,即用关键词作为索引项,再用传统的数据库对这些图片进行管理和检索。人工标注方法对于海量的信息来源已经不再适用,不同的标注者对图片内容的理解也不同,因此随着图像处理技术的成熟,近年来研究的热点越来越多地集中于用图片本身内容所包含的信息作为关键字进行检索,也就是基于内容的图像检索,许多富于实际应用意义的检索系统已经被启用。因此,本文针对以图片作为关键字进行的检索,也就是按例查询的基于内容图像检索进行了研究。随着视频流媒体的飞速发展,越来越多视频信息成为人们关注的焦点,多媒体信息检索的需求也越来越多地从图像过渡到视频。对视频信息而言,可以看作是融合了图像,语音,文本和动画等多种类型的媒体数据。同样地,对视频信息进行人工标注,已是几乎不可能完成的任务。这些困难促使人们寻找着新的视频索引和检索技术。另一方面,视频本身的表达上,也已经诞生了不同的形式。自从MPEG压缩视频标准被提出后,越来越多的视频信息以MPEG压缩视频的形式进行存储。视频可以看作是视频帧的集合,对非压缩视频的处理需要处理大量的视频帧,于是诞生了直接对MPFG压缩视频流进行处理的需求。如果可以直接从MPEG压缩视频流中提取出作为检索的有效特征和信息,将大大提高视频检索的效率。因此,本文的工作也对这一问题进行了研究和探讨。对图片和视频的信息,本质上都基于对信息的特征提取。在以往的工作中,人们提出了许许多多新的特征,对同一类特征,比如,颜色,纹理,形状描述等,有很多不同的表述方法。随着研究的不断深入,1996年,MPEG组织开始着手制定MPEG-7,提供多媒体内容描述框架,对多媒体内容进行了完整的描述。其中可视化描述工具,可对图像内容进行标准化的描述,从而实现快速有效的检索,同时也可以增加图像特征描述的通用性。2001年,MPEG-7公布并正式成为国际性标准,在我们的研究工作中也使用了若干MPEG-7特征来增加检索的准确性。基于内容的多媒体检索技术的日益成熟将创造出巨大的社会价值,对人类生活的改善发挥重要作用。它与传统数据库技术相结合,可以方便地实现海量多媒体数据的存储和管理;它与Web搜索引擎技术结合,可以用来检索网页中丰富的多媒体信息;它与数码相机,数码摄像机等产品技术相结合,可使人们更有效地管理自己拍摄的多媒体内容,获得更佳的使用体验;它与互动数字电视相结合,可使人们更方便地检索到自己想要观赏的多媒体内容等。在可预见的将来,基于内容的多媒体检索技术将会在各个领域中得到更成熟和广泛的使用。本文以基于内容的图片和视频检索为研究目标,以检索的过程(特征提取,特征相似度比较等)为主线,结合自己的研究工作,重点介绍图片检索算法中基于图片分割的特征提取,图片相似度比较,压缩MPEG视频的镜头运动向量提取和视频镜头标注等关键技术。论文第一章着重介绍多媒体检索研究的发展现状。简要介绍几个具有代表性的图像检索系统和视频内容分析的一些基础概念。随后介绍多媒体检索研究中的若干关键技术和主要的进展。第二章,从图像方面入手,着重介绍基于内容的图像检索中的一些关键技术,如图像特征提取,特征的相似度匹配等。在提取图像特征的过程中,除了已成为标准的MPEG-7特征,我们还进一步实现了应用Mean Shift算法进行图像分割,以此提供更多关于图像中的空间位置信息。因此在这一章也对基于Mean Shift算法的图像聚类和分割进行了介绍。第三章,主要介绍我们在基于内容的图像检索方面所作的工作。本文的研究工作主要集中在对特征相似度比较的改进上,提出了两种相似度改进算法。第四章,我们开始探讨在另一种多媒体领域,即视频方面所作的研究工作。本文的研究工作主要处理对象是MPEG压缩视频,这一章给出了对于MPFG压缩视频格式的介绍,并比较了对非压缩MPEG视频和压缩MPEG视频进行处理的一些关键技术,如提取运动向量等。第五章,首先结合视频结构化分析,介绍了一些相关背景知识,并随后提出了一种针对体育视频的半自动精彩镜头标注算法,给出了研究工作的详细介绍。第六章,总结全文并展望未来的工作。