论文部分内容阅读
随着互联网和移动网络的发展,人们可以随时随地接入互联网获取信息。而搜索是人们通过互联网获取信息的主要途径之一。传统的搜索方法使用文本的方式进行检索,通常得到的也是文本信息。而互联网上如图片、视频、声音等多媒体信息爆炸式地增长,远远超过了文字信息。为了达到检索多媒体内容的目的,传统的基于文字的信息检索只能通过检索多媒体内相关文本的方式,把相关文本对应的多媒体内容返回给用户,其并不能根据多媒体的内容来进行检索。而最近在基于内容检索技术上的突破打破了这一局面。针对互联网上存在的大量重复的图片,人们通过一些图片特征进行匹配或索引,实现了以图搜图的目的。然而,这种方式仅限于搜索与查询图片相似的图片,而用户的检索意图往往是复杂多样的,单一的使用文本或图片检索无法满足用户复杂的检索意图。另一方面,手机、平板电脑等移动终端渐渐成为了人们接入互联网的主要途径。而这些移动设备本身提供了诸如语音、拍照、手势等大量交互方式。这些交互方式为我们丰富用户检索意图的表达提供了方便。目前手机上的检索仍然采用传统台式电脑的文本检索和网页方式,没有充分利用移动设备的优势。本文充分发掘移动设备的交互优势,结合文本与图片,创造性地提出了一种利用语音/文字输入,结合视觉信息筛选的图像检索方式。本论文的研究内容主要集中在基于内容的图像检索方法,分别在检索的查询条件构建,特征的构建、组织,以及视频序列的索引结构上。本论文的主要工作和创新之处归纳为以下几点:(1)论文提出一种在移动终端上利用多模态输入方便构建查询条件的方式以及整个系统的实现方法。首先用户用语音输入来描述想要搜索的目标,系统利用视觉和文本对应关系,根据用户描述中所包含的的关键词,采用聚类算法为用户推荐一些图片素材,用户选择一系列符合用户意图的素材,并且通过调整素材的大小和位置构造出一幅拼图。系统根据用户的文字输入得到候选图片,再根据拼图的元素及元素间位置关系,对图片进行过滤,返回给用户既满足文本查询条件,也满足视觉查询条件的图片结果。论文提出了有效的算法,根据视觉特征和位置关系对图片进行过滤。提出的算法最终使得整个系统成为可能。(2)论文提出了利用拼图中的多样例图片以及相对位置关系对海量图片进行索引和检索的算法。对于大规模海量图片,构造一个有空间位置关系的拼图进行检索,需要考虑组成拼图的各个视觉元素的存在性和相对位置关系。本文打破了以往只能根据绝对位置进行匹配、校验的方式,采用自然分割获取视觉单词,利用视觉单词确定每个目标的存在性以及位置,最后对每对目标的相对位置进行校验,判断位置关系是否符合要求。通过对比试验,本文证明了相对位置校验相比绝对位置方法的优越性。此外,本文还第一次提出将多样例图片搜索方法引入相似图片检索,将查询图片先粗分割成若干简单元素变成多样例图片,通过查找简单元素并进行相对位置校验,找到与之相似的图片。(3)论文还提出了对视频序列的高效视觉索引方法。为了把视觉索引方法引入视频,论文提出了一种利用局部特征匹配进行视频的划分方法,把视频分割成几段可以用共享特征描述的场景。不同于传统的使用关键帧来索引视频,文章提出了对于每个场景提取一个虚拟帧来描述其内容的方法。虚拟帧包含了少量场景内最稳定的特征,用更少的特征保存了尽可能多的视频信息。作者将虚拟帧与关键帧进行试验比较,证明了虚拟帧比关键帧在对视频的描述上具有更好的紧凑性和有效性,因此更适于对视频的视觉索引。总而言之,本文从基于内容的角度出发,针对多模态输入、图像特征、多样例检索以及对视频的索引进行讨论,提出思考问题的新的角度和解决问题的新的方法。同时,本文也通过一些应用场景和实验验证了这些方法的可行性和有效性。